
近年来大模型能力的持续提升正在不断重塑人工智能的发展路径但一个愈发清晰的共识是模型性能的边界正在从「算法创新驱动」逐步转向「数据质量驱动」。在高质量人类标注数据日益稀缺、成本持续上升的背景下合成数据逐渐成为后训练阶段的重要支撑方式它能够生成在真实语料中较为稀缺的边缘案例与长尾场景降低人工标注的难度与延迟并且在某些情况下还能生成比人类数据分布更具挑战性的训练样本。随着大语言模型LLMs的出现「Self-Instruct」作为一种通过零样本或少样本提示生成合成数据的方法被提出在此基础上「Grounded Self-Instruct」 进一步引入文档等外部来源作为约束以减少幻觉并提升多样性此外「CoT Self-Instruct」在生成过程中引入链式思维推理以构造更复杂且更准确的任务最后一类所谓的「self-challenging」方法允许一个挑战者智能体在提出任务及其评测函数之前先与工具交互。然而这些方法都无法直接控制数据的难度与质量因此催生了过滤、进化与精炼等改进策略。在这一背景下Meta 基础人工智能研究团队FAIR at Meta提出一种通用方法 Autodata对上述所有方法进行了统一与泛化。在该框架中一个作为「数据科学家」的智能体负责构建与整理数据其行为模拟人类数据科学家的流程以生成高质量数据。这一过程不仅包含初始的数据生成还包括对数据的分析阶段类似「人工审查」评估其表现、总结经验并据此迭代生成更优的数据方案。研究人员在计算机科学研究任务、法律推理任务以及数学对象推理任务上进行了实验相较于传统的合成数据构建方法取得了更好的结果。此外对数据科学家智能体本身进行元优化还带来了更显著的性能提升。相关研究成果以「Autodata: An agentic data scientist to create high quality synthetic data」为题已发布预印本于 arXiv。研究亮点* 基于智能体的数据生成方式提供了一种将推理计算资源转化为更高质量模型训练数据的路径。* 数据科学家智能体本身也可以被元优化在无需人工提示工程的情况下进一步带来显著性能提升。* 该研究有潜力改变未来用于推动 AI 前沿发展的任务与基准构建方式。论文地址Autodata: An agentic data scientist to create high quality synthetic data | Papers | HyperAI数据集覆盖三类核心任务场景Autodata 框架在实验中覆盖了三类核心任务场景计算机科学研究问题、法律推理任务以及基于数学对象的科学推理任务。这些任务分别依托不同的数据源体系构建从而测试该框架在不同认知结构下的泛化能力。在计算机科学任务中研究人员从 S2ORC 语料库2022 年及以后中处理超过 1 万篇计算机科学论文并使用 Agentic Self-Instruct 生成了 2,800 个被接受的样本。在循环结束后使用基于 Kimi-K2.6 的质量验证器进一步过滤这些样本去除存在论文特定信息泄漏、上下文过短或评分标准格式错误的问题最终保留 1,300 个高质量样本作为用于强化学习RL训练的 Agentic Self-Instruct 数据集。在法律推理任务中数据来源于 Pile of Law 等公开法律文书体系包括法院判决与法律意见书并在 PRBench-Legal 以及其困难子集 PRBench-Legal-Hard 上进行评估。与科学论文不同法律文本具有更强的结构化逻辑约束与判例依赖特征因此在生成任务中更强调事实抽取与规则应用能力。在科学推理任务中研究基于 Principia 相关数据体系。Principia 数据集采用基于 CoT Self-Instruct 的方法构建覆盖 MSC2020 与 PHYS 分类体系中的广泛课程内容而 Principia benchmark 则由人类标注的现有数学与物理基准子集构成这些问题经过筛选确保答案中涉及数学对象。在所有任务中Autodata 的目标不是简单生成问答而是生成能够有效区分弱模型与强模型能力的训练数据。Autodata采用自主智能体来模拟数据科学家的角色Autodata 的顶层设计如下图所示该框架采用一个自主智能体来模拟数据科学家的角色通过迭代方式生成数据、进行定性检查与定量性能评估、综合分析所得洞察并据此更新数据生成方法在这一模板基础上可以构建多种不同的实现形式。Autodata 工作流整体循环由以下几个组件构成① 数据生成Data CreationAutodata 智能体基于某些提供的数据进行「接地」grounding例如数学、法律、编程等领域的特定文档或其他根据任务选择的有用数据源以辅助生成数据。该智能体可以使用工具或其此前获得的已有技能与经验并利用推理阶段的计算资源来生成用于模型训练或评测的训练数据与基准数据。这一数据生成步骤可以在后续分析与学习之后重复执行从而不断改进并提升数据质量。② 数据分析Data Analysis在获得智能体生成的数据之后系统会对这些数据进行分析以总结其「做对了什么」与「做错了什么」以及如何进一步改进。这种分析可以发生在不同层级既可以针对单个样本例如判断某个例子是否正确、质量是否高、是否足够具有挑战性也可以针对整个数据集层面例如样本是否多样化作为训练数据是否能够提升模型性能。这些分析所得的结论会反馈回数据生成阶段从而在下一轮迭代中生成更优的数据直到满足停止条件为止。③ 整体数据科学家循环Overall Data Scientist Loop智能体在「数据生成—数据分析」之间不断循环直到其对数据质量感到满意为止最终生成一个高质量的训练数据集或评测基准。在外层循环中还可以加入特定的安全或约束机制以防止系统被 hacking。这种智能体循环使模型能够在过程中不断积累并利用自身的学习成果。④ 数据科学家的元优化Meta-Optimization of the Data Scientist该智能体本身也可以进一步被优化使其更擅长充当数据科学家。一种方法是使用类似 autoresearch 或 meta-harness 的方法对智能体框架进行优化并利用相同的内循环目标即「生成更好的数据”来指导外循环优化从而改进整个智能体系统。在具体实现中论文提出 Agentic Self-Instruct 作为 Autodata 的一个实例化方法如下图所示弱—强对比的 Agentic Self-Instruct 方法该方法的主协调智能体main orchestrator agent可以访问 4 个基于大语言模型LLM的子智能体* 挑战者Challenger根据主智能体提供的详细提示生成训练样本* 弱求解器weak solver通常难以解决所生成训练数据的模型* 强求解器strong solver通常能够成功解决所生成训练数据的模型* 验证器/评审verifier/judge在给定样本和模型解答后检查其质量并将其学习结果反馈给主智能体。该系统的目标是生成一种训练数据使得强求解器能够成功完成任务而弱求解器则难以解决。主 LLM 会分析评审给出的反馈并据此更新发送给挑战者的提示然后不断重复这一循环从而生成用于训练弱求解器的高难度样本。成果展示相较传统合成数据构建方法取得更优的结果研究人员的实验部分覆盖 3 个任务领域从而在多个维度上验证了 Autodata 框架的有效性。计算机科学任务在计算机科学任务中Agentic Self-Instruct 生成的数据显著降低了弱模型与强模型之间的混淆率使得训练信号更加清晰。在基线 CoT Self-Instruct 方法生成的问题上弱求解器平均得分为 0.677而在使用 Agentic Self-Instruct 生成的同一类源材料论文问题中弱求解器得分下降 22 个百分点0.677 → 0.458而强求解器得分提升 8 个百分点0.696 → 0.772如下表所示说明最终接受的问题对强模型的深层推理能力具有更高的激励作用。生成的计算机科学研究任务质量统计RL 训练中面对较简单的 CoT Self-Instruct 测试集下表左侧用 CoT 数据训练可以将基础 4B 模型从 mean3 0.630 提升到 0.727而用 Agentic 数据训练进一步提升到 0.774在更困难的 Agentic 测试集上下表右侧对应结果为0.366基础模型→ 0.500CoT训练→ 0.632Agentic训练。两种方法之间的差距在该测试集上显著更大超过 CoT 测试集的两倍best3 指标也呈现相同排序。计算机科学研究任务上的强化学习RL训练结果Agentic 训练模型在两个方向上都表现出迁移能力在 CoT 测试集上 0.05在更难的 Agentic 测试集上 0.13。这种明显优势表明由 Agentic 流水线生成的、具有更强区分性的训练数据能够转化为更强的推理能力。法律推理任务法律推理任务中研究发现一个相反但同样重要的现象传统 CoT 生成的数据反而过难导致弱模型几乎无法提供有效梯度信号大量零分输出。Autodata通过引入更细粒度的评估反馈机制使数据难度重新回到「可学习区间」显著提升了 GRPO 训练的稳定性与效果。研究人员使用 GRPO 在两种数据源上对 Qwen3.5-4B 进行训练分别是 2.8k 个法律问答-评分标准Question-Rubric对Agentic Self-Instruct 与 CoT Self-Instruct。在训练过程中每隔 20 个 step在两个评估集合上进行测试一个是包含 100 个 prompt 的 CoT 留出集另一个是 PRBench Legal / Legal-Hard 切分。所有奖励与评分均由 Kimi-K2.6 进行评估。下图中的训练曲线显示在每一个评估 checkpoint 上Agentic 方法都在训练奖励、CoT 验证集以及 PRBench-Legal 上保持领先。法律推理任务上的强化学习训练动态科学推理任务科学推理任务中Agentic Self-Instruct同样表现出稳定优势。在组合验证集上如下表使用 Agentic Self-Instruct 数据训练取得了最大的整体提升3.20% avg8优于直接使用 CoT Self-Instruct2.42%以及 Combined 数据2.70%。在科学推理任务上的强化学习训练结果评估一个关键发现是即使在未专门优化的 CoT 验证子集上Agentic Self-Instruct 仍然带来更高提升3.05% vs CoT 的 1.86%。这表明在更困难任务上训练能够迁移到更简单任务通过迭代 agentic 过程生成的高难度样本可以学习到可泛化的推理能力而不局限于特定难度分布。在分布外的 Principia benchmark 上如下表Agentic Self-Instruct 同样取得最佳平均提升1.04% avg8并在多个类别上持续领先尤其是在 RealMath1.75%和 SuperGPQA0.82%上。这一迁移效果进一步证明Agentic Self-Instruct 生成的更困难问题能够提升更鲁棒的推理能力。分布外 Principia 基准测试结果对比不同训练数据来源结语总而言之Autodata 提出了一种新的数据生成范式将数据生成过程建模为一个由智能体驱动的数据科学循环。在该框架中数据生成、评估、失败分析与策略优化被统一在同一个闭环系统中。进一步的元优化实验表明数据科学智能体本身也可以被优化从而在无需人工提示工程的情况下提升数据质量。整体来看该研究的核心贡献在于提供了一种机制将推理阶段的计算资源转化为更高质量的训练数据生成能力。未来这一方向仍有大量拓展空间包括更大规模的任务适配、更复杂的多轮智能体协作、以及数据集级别的全局优化。此外将人类反馈重新引入循环与智能体形成协同优化机制也被认为是重要的发展方向。