SGI-Bench

大模型评测

SGI-Bench评测揭示：顶尖AI模型离“合格科学家”仍遥远，科学通用能力成新挑战

如今，大模型在理解、推理、编程等方面表现突出，但AI的“科学通用能力” （SGI）尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性，而现有基准仅覆盖碎片能力（如学科问答、单步工具操作），难以反映真实科研中的循环与自纠错。为此，上海人工智能实验室通过引入实践探究模型（PIM），将科学探究拆解为四个循环阶段，并与AI能力维度对应：审思/…

2025年12月27日
1.2K000