DeepAnalyze：首个面向自主数据科学的Agentic LLM，开启数据科学范式变革

近日，来自中国人民大学与清华大学的研究团队联合发布了DeepAnalyze，这是全球首个面向自主数据科学的agentic LLM（大型语言模型）。该模型的发布在学术界和工业界引发了广泛关注，一周内即在GitHub上获得超过1000个星标，社交媒体浏览量突破20万次，标志着数据科学领域向智能化、自主化迈出了关键一步。

DeepAnalyze-8B的核心突破在于能够模拟专业数据科学家的完整工作流程，在真实计算环境中自主编排、优化各项操作，最终完成端到端的复杂数据科学任务。这一能力覆盖了数据科学的全生命周期：从数据任务层面看，它支持自动化数据准备、多维度数据分析、智能数据建模、动态数据可视化、深度数据洞察以及结构化报告生成；从数据研究层面看，它能够在任意数量的结构化数据（如数据库、CSV、Excel）、半结构化数据（如JSON、XML、YAML）和非结构化数据（如TXT、Markdown）中进行开放式深度研究，生成分析师级别的专业研究报告。

DeepAnalyze的诞生并非偶然，而是对当前LLM在数据科学应用局限性的直接回应。现有方法主要分为两类：一是领域特定的LLM，如专注于数据科学代码生成或结构化数据理解的模型；二是基于workflow的智能体，通过人为设计的流程调用闭源LLM完成任务。这两种方法都存在明显缺陷：前者仅能处理单点任务，无法实现端到端的全流程覆盖；后者依赖的闭源模型未在真实数据科学任务环境中训练，难以有效编排和优化复杂操作。DeepAnalyze的提出，正是为了推动基于LLM的数据科学系统从workflow-based agent范式向可训练的agentic LLM范式转变。

然而，训练面向数据科学的agentic LLM面临两大核心挑战：首先是奖励稀疏问题。数据科学的复杂性使得LLM在训练早期几乎无法成功完成任务，导致正向奖励信号极度匮乏，传统的强化学习方法容易因此失效。其次是路径稀缺问题。数据科学的解决过程依赖长链推理，而高质量的求解轨迹十分稀缺，这使得LLM在庞大的搜索空间中只能进行低效的试错式探索，学习效率低下。

针对这些挑战，DeepAnalyze团队创新性地提出了两项关键技术：一是Curriculum-based Agentic Training（课程式智能体训练）。该方法在真实环境中采用渐进式训练策略，从单一任务开始，逐步过渡到复合任务，让大模型能力稳步提升，有效避免了复杂任务上奖励信号为零导致的训练崩溃。二是Data-grounded Trajectory Synthesis（数据驱动的轨迹合成）。通过自动化合成50万条数据科学的推理和环境交互数据，为模型在庞大搜索空间中提供正确路径的指导，显著提升了学习效率。

通过在真实环境中的agentic训练，DeepAnalyze具备了自主编排和自适应优化的双重能力，能够端到端地完成从具体数据任务到开放式数据研究的全流程。在性能评估方面，DeepAnalyze表现卓越：DeepAnalyze-8B在DataSciBench（端到端数据科学基准测试）上优于所有开源模型，性能与GPT-4o相媲美；在DSBench的数据分析和数据建模任务上超越了基于workflow的智能体；在面向数据的深度研究中取得最佳表现，能够生成分析师级别的专业分析报告。

例如，在处理复杂数据集时，DeepAnalyze能够自动识别数据特征、选择合适的数据预处理方法、构建优化模型并进行可视化呈现，整个过程无需人工干预。

总结而言，DeepAnalyze作为首个面向自主数据科学的agentic LLM，其核心价值体现在两个方面：技术层面，它实现了自主编排和自适应优化的关键能力突破；方法论层面，它提出的Curriculum-based Agentic Training训练范式和data-grounded trajectory synthesis数据合成方法，有效解决了复杂场景下的奖励稀疏和轨迹稀缺问题，为高复杂度任务的学习提供了新思路。作为一个基础模型，DeepAnalyze既可直接应用，也可通过提示工程或监督微调进一步定制，以适应特定场景需求。

DeepAnalyze的开源生态已经初步建立，论文、代码、模型和数据均已公开，支持本地部署，可作为私有数据科学助手使用。这一开放策略不仅降低了技术门槛，也为社区协作和创新提供了坚实基础。从长远来看，DeepAnalyze的出现可能重塑数据科学的工作模式，将数据科学家从重复性劳动中解放出来，专注于更高层次的策略制定和创新探索。随着模型的持续迭代和生态的不断完善，自主数据科学有望成为AI赋能行业智能化转型的重要突破口。

作者介绍：

张绍磊，中国人民大学信息学院助理教授，师从范举教授。博士毕业于中国科学院计算技术研究所，研究方向涵盖大语言模型、多模态大模型和AI for Data Science。在NeurIPS、ACL、ICLR等顶级会议发表论文30余篇，开源模型在GitHub累计获星5000+，长期担任ACL ARR领域主席和责任编辑。