从能力到评测：DeepAnalyze 发布数据能力 Benchmark，补全代码智能体评估闭环

发布时间：2026/6/27 5:33:32

一、背景数据科学智能体的落地与评测缺口2025 年中国人民大学信息学院范举教授团队联合清华大学研究力量正式发布首个面向数据科学的 Agentic 大语言模型 ——DeepAnalyze。该模型可模拟数据科学家的工作流程自主完成数据准备、分析建模、可视化输出到报告生成的全链路工作。发布不到一周项目便在 GitHub 收获超 1000 个星标国内外社交媒体累计浏览量突破 20 万次。目前模型已在和鲸社区 ModelWhale 平台部署用户无需本地环境配置即可在线体验。随着 LLM 与 AI Agent 在数据分析场景的落地深化行业暴露出明显的评测体系短板传统代码生成 Benchmark 仅聚焦函数级编程能力数据分析 Benchmark 多局限于单表查询场景完全无法覆盖真实企业中成百上千文件的海量数据环境与复杂分析任务。数据智能体的真实落地能力长期处于无统一、可复现评估标准的空白状态。二、CoDA-Bench海量数据场景下的智能体评测基准针对上述行业痛点人大团队正式推出CoDA-Bench评测基准专门用于评估 AI Agent 在海量数据环境下的复杂分析任务解决能力。该基准的测试环境平均包含约 1000 个数据文件高度还原真实企业的数据规模、文件结构与任务复杂度填补了多文件、跨数据源复杂分析场景的评测空白能够更真实地反映代码智能体的落地能力。目前CoDA-Bench 相关研究论文已被ICML 2026正式接收评测体系的学术价值获得国际顶会认可。三、开源资源与社区交流为推动全行业共同建设数据智能体评估体系CoDA-Bench 已实现全资源开源覆盖论文、测试数据集、评估代码全链路支持对 Claude Code、Codex 等主流代码智能体进行一键化能力评估。相关开源地址论文https://huggingface.co/papers/2606.15300代码仓库https://github.com/ruc-datalab/CoDA-Bench数据集https://huggingface.co/datasets/RUC-DataLab/CoDA-Bench欢迎正在探索 LLM 数据分析落地的开发者加入关注和鲸共同推动数据智能体评测体系的完善与发展。

从能力到评测：DeepAnalyze 发布数据能力 Benchmark，补全代码智能体评估闭环

相关新闻

CTF-02编码mouse

密码测评（密评）政策调研报告

Spring Boot 实现 HTML 转 PDF

最新新闻

耿同学再次实名举报，打假母校！论文涉及多所985高校多位杰青、院长

苏州信创国产化替换与迁移实施 | ARM麒麟达梦全栈方案

RAG的技术发展

从零打造一个支持小众语言的在线评测系统

Windows → Ubuntu 服务器 SSH 免密码登录配置（VSCode适用）

git stash -u 还是不要经常用啊，会把一些文件搞不见呢？

日新闻

IDEA创建Spring Boot项目：3种方式深度对比（Gradle/Maven/Initializr），附JVM参数调优+离线构建配置（内含企业级CI/CD预埋脚本）

Vue KeepAlive 原理深度解析：从使用到底层实现

千问AI眼镜：阿里AI战略急先锋，能否在激烈竞争中突围？

周新闻

LaserGRBL终极指南：从零开始掌握免费激光雕刻软件

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

暗黑破坏神2现代化改造指南：D2DX让经典游戏重获新生

月新闻