SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

如今,大模型在理解、推理、编程等方面表现突出,但AI的科学通用能力 (SGI) 尚无统一标准。

SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力 (如学科问答、单步工具操作) ,难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型 (PIM) ,将科学探究拆解为四个循环阶段,并与AI能力维度对应:

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

审思/深度研究 (Deliberation) :复杂问题下的检索、证据综合与批判评估;
构思/创意生成 (Conception) :提出新假说与可执行研究方法;
行动/实验执行 (Action) :将想法转化为计算代码 (干实验) 与实验室流程 (湿实验)
感知/结果解读 (Perception) :整合多模态证据并进行因果、比较等分析推理。

团队将上述四维能力的综合定义为SGI,并发布覆盖全流程的SGI‑Bench。首轮结果:闭源模型Gemini‑3‑Pro以SGI‑Score 33.83/100取得SOTA,但距离“会做研究”的门槛仍显著不足。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

SGI-Bench:以科学家工作流对齐的全流程评测

SGI‑Bench采用科学家对齐(scientist-aligned)” 的任务构造:

  • 多学科专家提供原始语料 (研究方向、图文材料等) 与少量种子问题 (seed questions)
  • 招募超过100位研究生/博士生根据输入输出结构与种子问题,结合真实科研流程,进行题目构建;
  • 经规则校验、模型校验、专家复核三重清洗;最终再以多模型难度筛选剔除简单样本。

最终得到1000多个覆盖10大学科 (化学、生命、物理、数学等) 的评测样本。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

核心结果与洞见:今天的“强模型”,尚未成为“强科学家”

1. 审思/深度研究Deliberation

科学深度研究(Scientific Deep Research)步骤准确率高于严格匹配,长链路“结论崩塌”

任务模拟文献元分析与多跳检索,要求在明确约束下检索并整合跨来源证据、进行定量推理,输出可核验结论。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

实验结果:

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

步骤准确率达50%–65%,但长链条步骤中的错误导致最终结论频繁错误,答案严格匹配仅10%–20%。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

工具增强的多智能体在逐步准确率略优,但与纯模型差距并不显著。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

类型上,“数据/性质”题最难,需跨文献精确检索与数值聚合;“微/宏实验”类相对较好但整体仍低于30%,体现元分析难度的严苛性。

2. 构思/创意生成Conception

创意生成(Idea Generation)新颖度尚可,但可行性偏低

面向整体思路和具体方案,考察将灵感转化为可执行蓝图的能力 (包含创新点、方法步骤,数据,指标等)

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

实验结果:

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

  • 闭源模型“新颖性 (Novelty) ”更强,但“可行性 (Feasibility) ”普遍偏低。以GPT‑5为例:新颖性76.08、可行性18.87,体现“概念丰富≠可执行方案”。
  • 开源可行性上限约20分 (如Qwen3‑Max 20.98) ,多数模型14–20分,显示“能说清”与“能落地”之间的落差。
  • 常见缺陷:缺少数据获取与预处理计划;流程接口不闭合 (输入输出不对齐) ;步骤顺序与依赖模糊,导致“创意→蓝图→执行”闭环断裂。

3. 行动/实验执行Action:干实验(Dry Experiment)

可运行≠科学正确

根据科学背景,将缺失函数补全到主代码中,检验科学代码合成、数值稳健性与算法精确性,强调严格正确与可执行。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

实验结果:

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

  • 每题含5个单测,最佳Gemini‑3‑Pro的严格通过率 (全过5个单测) 仅36.64%,宽松通过率 (至少过1个) 41.98%,表明模型常能写对部分,但难以实现严格正确。
  • 闭源模型略优于开源,但优势有限且分布重叠,“科学代码合成”仍是各架构共同短板。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

  • 平滑执行率 (无报错运行) 多在90%+,显示“能跑”与“算对”之间存在系统性鸿沟。
  • 类型上,数据处理/预测建模较稳;数值计算与仿真最弱,受离散化、稳定性与约束处理影响。例:引力波体积估计中,前向累加 (np.cumsum) 与自适应积分 (scipy.integrate.quad) 差异巨大;前者累积误差经χ(z)影响dV/dz,最终体积严重偏离。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

4. 行动/实验执行Action:湿实验(Wet Experiment)

动作时序、分支与参数选择是硬伤

基于实验背景与原子动作池,生成带参数的原子动作序列,以检验流程规划、顺序依赖与复杂约束的正确处理。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

实验结果:

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

  • 序列相似度整体偏低,最佳闭源约35.5;参数准确率最高约40.6;部分闭源参数准确率显著下跌 (约20.7)
  • 高发错误:插入多余步骤、遗漏关键步骤、打乱有效步骤顺序。
  • 在NSCLC抗PD‑1流程中,常见错误包括:将纵向采样简化为一次采血;PBMC只在单一时间点分离;功能测定未按时间/刺激分组;基因组测序与免疫表型流程混用样本等,反映时间协调、分支规划与样本管理薄弱。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

5. 感知/结果解读Perception

多模态实验推理(Experimental Reasoning)因果推理尚可,比较推理最难

综合解读多模态证据 (图像、流程、可视化等) ,识别跨模态线索、建模变量关系,进行比较与因果判断,输出可读推理与准确答案。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

实验结果:

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

  • 闭源整体更强:最佳闭源答案准确率约41.9、推理有效性最高约71.3。
  • 多数模型推理有效性高于答案准确率:难以实现推理链条的完全正确。
  • 推理类型上,因果推断与感知识别较稳;比较型最弱,涉及跨样本细粒度对比与一致性判别。学科上,天文最佳,物理、生命等学科挑战较大。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

智能体评测框架:简单,高效,定制化

传统评测框架大都基于固定的评测脚本,对于普通用户的上手难度高且难以根据需求差异进行定制化评测。团队面向“可定制评测与报告生成”设计SGIEvalAgent,它由4部分构成:

  • 任务精选智能体:结合用户需求,按学科、任务类型、样本规模等选择评测题目。
  • 指标定制智能体:根据用户需求自定义评测指标。
  • 评测执行智能体:运行评测并得到分数。
  • 报告生成智能体:综合用户输入与评测结果,撰写评测报告。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

你可以用自然语言描述评测意图 (如“比较两款模型在跨学科创意生成上的严谨性”) ,系统将自动解析意图、选择题目、定制指标,执行推理与打分 ,最终输出带有可追溯证据链的评测报告 与可复现的明细结果。

SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

SGI-Bench:不止一个基准,更是一条路线图

SGI‑Bench的结果为AI自主科研指明方向:

深度研究: 强化证据聚合与数值鲁棒性,提升深层研究准确性。
创意生成: 引入规划感知与结构化监督,保障创意可行与执行细节完备。
代码生成: 训练需超越语法,聚焦数值分析先验与算法稳定性。
湿实验协议: 结合状态模拟,重点解决时序逻辑与复杂分支。
多模态推理: 通过细粒度视觉定位与对比训练,提升比较推理精度。

资源链接:
* 论文:https://arxiv.org/pdf/2512.16969
* 项目主页:https://InternScience.github.io/SGI-Page/
* 代码仓库:https://github.com/InternScience/SGI-Bench
* 数据集:https://huggingface.co/collections/InternScience/sgi-bench


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15450

(0)
上一篇 2025年12月27日 下午2:40
下一篇 2025年12月27日 下午2:47

相关推荐

  • DeepEval开源方案:用LLM合成数据,90%成本锐减,评测效率飙升

    测试LLM输出效果,离不开大量数据集。从零开始准备这些数据,费时、烧钱,还特别折腾。但现在情况不一样了:以前要花几周手工打造的数千条测试用例,现在几分钟就搞定。 合成数据生成的核心思路很简单:让LLM自己造数据,省掉收集、清洗、标注这些苦力活。有了GPT-4等这样的模型,合成出来的数据集比人工标注的更全面、更多样,速度还快得多。这些数据可以用来给LLM系统做…

    2025年10月24日
    7500
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    8200
  • 腾讯混元HY 2.0 Think深度评测:思考能力初显,但前端实现仍欠火候

    混元大模型近期推出了HY 2.0 Think版本,其核心特性是深度思考能力。我们使用一套前端评测用例,对其代码生成能力进行了测试。 常规用例评测 这部分用例与之前的DeepSeek V3.2评测保持一致,旨在快速评估其整体水平。 (1) 复古打印机 核心功能完整实现,打字效果富有节奏感。卡片拖拽功能正常,页面风格也体现了复古韵味。 (2) 双栏响应式Hero…

    2025年12月10日
    18300
  • DeepSeek V3.2 多维度能力评测:从基础交互到复杂游戏逻辑的10个实战用例分析

    最近,DeepSeek 发布了 V3.2 版本。为了对其能力进行系统评估,我们设计了一系列按难度递进的实战测试用例。每个用例均包含:用例名称、技术标签、考察重点及完整的 Prompt。 第一关:热身赛(基础能力验证) 1.1 复古打字机应用 技术标签:前端交互 | 动画效果 | 拖拽功能 考察重点:能否精准实现“打字机缓慢吐字”的动画细节与交互逻辑。 Pro…

    2025年12月9日
    9700
  • 豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测

    豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测 罗永浩的年度科技创新分享大会,刷屏全网。 复盘整场四个多小时的直播,观众集体回味讨论的焦点似乎就两个: 第一,不知是因为迟到了40多分钟,还是提前就有谋划,罗永浩现场宣布给所有购票观众退票。 第二,罗永浩这张网络名嘴和豆包AI之间的“人机舌战”竟成最大亮点,火爆出圈。 光看二位的辩题,就已火药味…

    2026年1月1日
    14900