30B参数开源模型UniScientist:实现自主科研闭环,将开放式问题转化为可验证单元测试(1/2)
当前许多大语言模型能够生成看似专业的论文,但其“科研能力”往往停留在表面——它们擅长模仿格式、排列逻辑和引用文献,却难以进行严谨、可验证的科学推理。模型常陷入“叙事推理”的陷阱,结论缺乏稳固的证据支撑,可复现性弱。
近期,UniPat AI团队发布了一个开源项目 UniScientist。该模型参数量为 30B,其核心目标是实现“提出假设-收集证据-执行可复现的推导-迭代验证直至结论成立”的完整科研闭环。在FrontierScience-Research等权威科学研究榜单上,其表现匹敌甚至超越了参数量大一个数量级的顶尖闭源模型。

一个30B的模型如何实现复杂的科研闭环?关键在于,研究团队将AI建模为一个动态系统,并通过自主构建的数据引擎,成功将开放式的科研难题转化为了可验证的“单元测试”。
从“撰写报告”到“完成研究”:实现流程闭环是关键
许多模型完成的“研究任务”仅具其形:它们能生成格式规范的文本,但往往缺乏深入的验证和稳固的推导过程,可复现性低。
UniScientist直接回应了这一技术缺口。它并非仅生成文本,而是具备了自主科学研究的能力框架。面对开放问题,模型能够持续提出科学假设、证伪错误推论、修正研究路径,直至证据状态稳定,最终将全过程沉淀为标准化的结构化科研成果。
这揭示了一个核心观点:真正的科研能力,不仅在于生成漂亮的报告,更在于能够反复跑通“假设-证据-验证”的完整循环。
突破数据瓶颈:融合模型规模与专家精度
高质量科研训练数据的构建一直是核心挑战。现有方案通常面临两难:
* 纯人工标注:质量高、真实性足,但成本高昂、速度慢,且受限于专家的知识范围。
* 纯合成数据:规模大、成本低,但往往在精度和学科真实性上存在不足。
UniScientist的关键洞察在于利用了一种不对称性:
* 大语言模型擅长生成:能够跨学科、大规模地提出候选研究问题和解法草案。
* 人类专家擅长验证:鉴别研究的真伪与质量,其成本远低于从零创造,并能提供高精度的专业校验。
基于此,UniScientist采用了一种更高效的分工模式:模型负责规模与多样性,人类专家负责质量与可验证性。

这正是其数据引擎的核心原则,旨在产出兼具广泛专业覆盖面与严格验证保障的训练实例。
形式化科研过程:证据状态与溯因假设的动态系统
UniScientist在更本质的层面进行建模,将开放式科研过程形式化为一个基于两个基本操作的动态系统:
* 主动证据整合
* 模型溯因
系统的核心是一个不断演化的 “证据状态” ,其中证据被分为两类:
1. Evidence-Grounded:来自外部权威来源,或内部产出但经过明确检查验证的证据。
2. Formally-Derivable:通过符号推导、数值计算、仿真实验等可复现程序得到的证据。
系统循环执行以下动作:
1. 产生假说。
2. 获取外部权威信息证据,并进行计算和推导以获取新证据。
3. 进行溯因更新,使假说更好地解释当前证据状态。
当证据足够完整和稳定时,整个研究过程便被转化为一份严谨的科学成果。这一形式化过程的意义在于,它将“科研智能”从一个宏大目标,变成了可训练、可评估、可迭代的具体对象。
将开放问题分解为“可验证的单元测试”
UniScientist提出了 “进化式多学科合成” 数据引擎,它承担两项功能:
1. 从经过专家验证的科学命题出发,将其扩展为研究级课题——通过构建多个相互依赖的子问题,实现实验设计与逻辑推导的深度协同。
2. 同步合成评测标准。这些标准不评估文风或格式,而是评估具体的科学发现是否已被达成。
该设计最显著的特点是:一份开放式科研成果被分解为N个封闭的、可独立验证的检查项。
每个检查项都力求做到原子化、客观、可证据落地或可形式化推导,并强调:
* 一致性:对相同成果的重复评测结果应稳定。
* 区分度:能有效区分不同完整度的成果。
* 原子性:单条检查项只验证一个核心知识点。
目前,该数据集已包含超过 4700 个研究级实例,每个实例附有 20+ 条检查项,覆盖 50+ 学科和 400+ 研究方向。专家对每条样本的平均标注时间达1-2小时,学科范围从量子物理、有机化学到社会文化人类学、计算语言学等。

数据集中的问题均具备真实的科研质感,没有任何一道可以通过匹配记忆中的既有答案直接解决。每一道都要求完整的科研链条,包括文献调研、假设形成、实验或推导设计、分析验证及最终成果的收敛。

30B模型比肩顶级闭源系统
UniScientist引入了一个额外的训练目标——成果聚合目标:给定同一问题的多份候选科研成果,模型学习融合各家优点,产出一份更完整、更稳健的最终成果。通过基于评测标准的拒绝采样来筛选高质量参考答案,模型的聚合能力与科研生成能力被一同训练。
这实际上将 “集体科研智能” 的理念融入了训练过程,使模型不仅学会产出研究,还学会了比较、取舍、整合与自我进化。
评测结果令人瞩目。UniScientist-30B-A3B(一个仅有3B激活参数的小模型)在FrontierScience-Research上达到 28.3分,超越了Claude Opus 4.5、Gemini 3 Pro、GPT-5.2 xhigh等模型。在成果聚合模式下,其得分甚至达到 33.3。
在FrontierScience-Olympiad上,启用工具的UniScientist得分为 71.0,与Claude Opus 4.5持平。在DeepResearch Bench、ResearchRubrics等多个分布外基准上,其表现也与一系列顶级闭源系统实力相当。
一个重要的发现是:即使在无工具使用的评测条件下,模型性能仍有显著提升。这表明性能增益并非单纯源于更频繁的工具调用,模型自身的研究推理能力确实通过训练得到了实质性增强。
以上基准测试结果均指向同一结论:模型所掌握的不仅是更优的检索能力,更是将检索、推导、验证与写作整合为一个连贯的科研工作流。

UniScientist 的下一步:迈向现实世界实验
科学研究不仅在于构建合理的叙事,许多结论更依赖于可执行、可复现的计算与仿真。
为此,UniScientist 集成了代码解释器,将研究流程从叙事式推理升级为 “测试-修正” 的闭环:假设不仅被提出,更被实例化为计算实验——其结果可用于确认、推翻或细化原有假设。
目前,系统的能力主要集中在 可复现的推理与仿真计算范畴。
它尚未实现对真实世界研究资源的直接编排,例如大规模 GPU 任务的可靠调度,以及湿实验流程的协调。
在项目博客中,团队已明确阐述了下一步方向:
将框架扩展至对真实实验与计算基础设施的受控编排与执行,以期进一步加速科学发现、推动研究前沿。
以下展示了 UniScientist 进行完整科研推理的一个链条示例,详细推理过程可在项目博客中查阅。

开源地址:
https://github.com/UniPat-AI/UniScientist
项目博客:
https://unipat.ai/blog/UniScientist
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24865
