DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

近日,来自中国人民大学与清华大学的研究团队联合发布了DeepAnalyze,这是全球首个面向自主数据科学的agentic LLM(大型语言模型)。该模型的发布在学术界和工业界引发了广泛关注,一周内即在GitHub上获得超过1000个星标,社交媒体浏览量突破20万次,标志着数据科学领域向智能化、自主化迈出了关键一步。

DeepAnalyze-8B的核心突破在于能够模拟专业数据科学家的完整工作流程,在真实计算环境中自主编排、优化各项操作,最终完成端到端的复杂数据科学任务。这一能力覆盖了数据科学的全生命周期:从数据任务层面看,它支持自动化数据准备、多维度数据分析、智能数据建模、动态数据可视化、深度数据洞察以及结构化报告生成;从数据研究层面看,它能够在任意数量的结构化数据(如数据库、CSV、Excel)、半结构化数据(如JSON、XML、YAML)和非结构化数据(如TXT、Markdown)中进行开放式深度研究,生成分析师级别的专业研究报告。

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

DeepAnalyze的诞生并非偶然,而是对当前LLM在数据科学应用局限性的直接回应。现有方法主要分为两类:一是领域特定的LLM,如专注于数据科学代码生成或结构化数据理解的模型;二是基于workflow的智能体,通过人为设计的流程调用闭源LLM完成任务。这两种方法都存在明显缺陷:前者仅能处理单点任务,无法实现端到端的全流程覆盖;后者依赖的闭源模型未在真实数据科学任务环境中训练,难以有效编排和优化复杂操作。DeepAnalyze的提出,正是为了推动基于LLM的数据科学系统从workflow-based agent范式向可训练的agentic LLM范式转变。

然而,训练面向数据科学的agentic LLM面临两大核心挑战:首先是奖励稀疏问题。数据科学的复杂性使得LLM在训练早期几乎无法成功完成任务,导致正向奖励信号极度匮乏,传统的强化学习方法容易因此失效。其次是路径稀缺问题。数据科学的解决过程依赖长链推理,而高质量的求解轨迹十分稀缺,这使得LLM在庞大的搜索空间中只能进行低效的试错式探索,学习效率低下。

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

针对这些挑战,DeepAnalyze团队创新性地提出了两项关键技术:一是Curriculum-based Agentic Training(课程式智能体训练)。该方法在真实环境中采用渐进式训练策略,从单一任务开始,逐步过渡到复合任务,让大模型能力稳步提升,有效避免了复杂任务上奖励信号为零导致的训练崩溃。二是Data-grounded Trajectory Synthesis(数据驱动的轨迹合成)。通过自动化合成50万条数据科学的推理和环境交互数据,为模型在庞大搜索空间中提供正确路径的指导,显著提升了学习效率。

通过在真实环境中的agentic训练,DeepAnalyze具备了自主编排和自适应优化的双重能力,能够端到端地完成从具体数据任务到开放式数据研究的全流程。在性能评估方面,DeepAnalyze表现卓越:DeepAnalyze-8B在DataSciBench(端到端数据科学基准测试)上优于所有开源模型,性能与GPT-4o相媲美;在DSBench的数据分析和数据建模任务上超越了基于workflow的智能体;在面向数据的深度研究中取得最佳表现,能够生成分析师级别的专业分析报告。

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

例如,在处理复杂数据集时,DeepAnalyze能够自动识别数据特征、选择合适的数据预处理方法、构建优化模型并进行可视化呈现,整个过程无需人工干预。

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

总结而言,DeepAnalyze作为首个面向自主数据科学的agentic LLM,其核心价值体现在两个方面:技术层面,它实现了自主编排和自适应优化的关键能力突破;方法论层面,它提出的Curriculum-based Agentic Training训练范式和data-grounded trajectory synthesis数据合成方法,有效解决了复杂场景下的奖励稀疏和轨迹稀缺问题,为高复杂度任务的学习提供了新思路。作为一个基础模型,DeepAnalyze既可直接应用,也可通过提示工程或监督微调进一步定制,以适应特定场景需求。

DeepAnalyze的开源生态已经初步建立,论文、代码、模型和数据均已公开,支持本地部署,可作为私有数据科学助手使用。这一开放策略不仅降低了技术门槛,也为社区协作和创新提供了坚实基础。从长远来看,DeepAnalyze的出现可能重塑数据科学的工作模式,将数据科学家从重复性劳动中解放出来,专注于更高层次的策略制定和创新探索。随着模型的持续迭代和生态的不断完善,自主数据科学有望成为AI赋能行业智能化转型的重要突破口。

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

作者介绍:

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

张绍磊,中国人民大学信息学院助理教授,师从范举教授。博士毕业于中国科学院计算技术研究所,研究方向涵盖大语言模型、多模态大模型和AI for Data Science。在NeurIPS、ACL、ICLR等顶级会议发表论文30余篇,开源模型在GitHub累计获星5000+,长期担任ACL ARR领域主席和责任编辑。

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

范举,中国人民大学教授、博士生导师,国家级青年人才,CCF数据库专委会、大数据专委会执行委员。研究方向包括数据治理技术与系统、智能数据库系统等,发表顶级论文60余篇,主持国家自然科学基金多项项目。

— 图片补充 —

DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8784

(0)
上一篇 2025年10月30日 下午4:29
下一篇 2025年10月30日 下午6:04

相关推荐

  • 黄仁勋街头力挺OpenAI:英伟达将投史上最大融资,千亿美元合作未停滞

    闻乐 发自 凹非寺 “完全胡说八道!” 都在传英伟达和OpenAI的千亿美元世纪大单谈崩了、黄仁勋私下吐槽奥特曼无能、烧钱无度,不少人猜测这对AI圈的黄金搭档要闹掰。 结果才过不到24小时,黄仁勋就直接强势回应:No Sense! 老黄街头接受采访时不仅打破传闻,还大方表态:我非常欣赏奥特曼。 总之,他的意思是英伟达肯定要投OpenAI最新一轮融资,而且这笔…

    2026年2月1日
    26400
  • 量子科技产业链全景解析:2026年全球竞争格局与产业机遇

    量子科技产业链全景解析:2026年全球竞争格局与产业机遇(第1/4部分) 核心要点 全球高度重视量子科技,国际竞争激烈 量子科技已成为全球主要国家在科技、经济等领域开展综合国力竞争、维护国家技术主权与发展主动权的战略重点之一,对国防安全、信息安全等关键领域具有深远影响。截至2025年8月,全球已有30余个国家和地区制定或更新了量子信息领域的发展战略规划或法案…

    2026年3月3日
    35100
  • AAAI 2026评审风波:当AI算法与人情关系交织,学术公正的信任危机如何破局?

    近日,人工智能领域顶级会议AAAI 2026的评审流程陷入舆论漩涡。一位匿名审稿人在Reddit平台详细披露了其参与评审过程中遭遇的种种异常现象:高质量论文被无故拒稿,而技术含量较低的论文却顺利晋级;评审意见中疑似存在”护航”行为;更令人担忧的是,AI系统已正式介入评审流程,自动生成评审总结供决策参考。这场风波不仅暴露了当前学术评审机…

    2025年11月1日
    21800
  • UNeMo:多模态世界模型与分层预测反馈机制重塑视觉-语言导航新范式

    在具身智能(Embodied AI)领域,视觉-语言导航(VLN)作为核心任务之一,要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得一定进展,但仍面临推理模态单一、优化目标冲突等关键瓶颈。深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出的UNeMo框架,通过多模态世界模型(M…

    2025年12月10日
    23100
  • 中国开源大模型引领全球AI应用创新:从Cursor到Windsurf的“反向技术输出”现象深度解析

    近期,全球AI领域出现了一个引人注目的现象:美国顶流AI编程应用Cursor和Windsurf相继发布的新模型,被多方证据指向其底层技术可能基于中国的开源大模型。这一发现不仅在国际技术社区引发热议,更揭示了中国在人工智能开源生态建设方面取得的实质性突破。 **技术溯源:从“中文输出”到模型架构的线索** Cursor最新发布的Composer-1模型被用户发…

    2025年11月2日
    20000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注