从能力到评测:DeepAnalyze 发布数据能力 Benchmark,补全代码智能体评估闭环

发布时间:2026/6/27 5:33:32
从能力到评测:DeepAnalyze 发布数据能力 Benchmark,补全代码智能体评估闭环 一、背景数据科学智能体的落地与评测缺口2025 年中国人民大学信息学院范举教授团队联合清华大学研究力量正式发布首个面向数据科学的 Agentic 大语言模型 ——DeepAnalyze。该模型可模拟数据科学家的工作流程自主完成数据准备、分析建模、可视化输出到报告生成的全链路工作。发布不到一周项目便在 GitHub 收获超 1000 个星标国内外社交媒体累计浏览量突破 20 万次。目前模型已在和鲸社区 ModelWhale 平台部署用户无需本地环境配置即可在线体验。随着 LLM 与 AI Agent 在数据分析场景的落地深化行业暴露出明显的评测体系短板传统代码生成 Benchmark 仅聚焦函数级编程能力数据分析 Benchmark 多局限于单表查询场景完全无法覆盖真实企业中成百上千文件的海量数据环境与复杂分析任务。数据智能体的真实落地能力长期处于无统一、可复现评估标准的空白状态。二、CoDA-Bench海量数据场景下的智能体评测基准针对上述行业痛点人大团队正式推出CoDA-Bench评测基准专门用于评估 AI Agent 在海量数据环境下的复杂分析任务解决能力。该基准的测试环境平均包含约 1000 个数据文件高度还原真实企业的数据规模、文件结构与任务复杂度填补了多文件、跨数据源复杂分析场景的评测空白能够更真实地反映代码智能体的落地能力。目前CoDA-Bench 相关研究论文已被ICML 2026正式接收评测体系的学术价值获得国际顶会认可。三、开源资源与社区交流为推动全行业共同建设数据智能体评估体系CoDA-Bench 已实现全资源开源覆盖论文、测试数据集、评估代码全链路支持对 Claude Code、Codex 等主流代码智能体进行一键化能力评估。相关开源地址论文https://huggingface.co/papers/2606.15300代码仓库https://github.com/ruc-datalab/CoDA-Bench数据集https://huggingface.co/datasets/RUC-DataLab/CoDA-Bench欢迎正在探索 LLM 数据分析落地的开发者加入关注和鲸共同推动数据智能体评测体系的完善与发展。