当多模态大语言模型在科学、技术、工程和数学领域的视觉推理任务中频频遭遇“滑铁卢”,一个根本性的困惑始终萦绕在研究者心头:大模型无法解答理科题目,究竟是源于其推理能力的先天不足(“脑子笨”),还是视觉感知环节存在缺陷(“眼神差”)?
为揭开这一谜团,来自上海交通大学与Qwen等机构的研究团队,将任务拆解为两个独立的阶段进行系统性分析:视觉感知阶段(将图像转化为描述)与推理阶段(仅基于文本描述来求解问题)。通过分别扩展感知能力与推理能力,并同时保持另一项能力不变,他们发现:提升感知能力所带来的性能增益,始终显著优于提升推理能力。这一实证结果揭示了一个关键洞察:在当前的模型发展阶段,感知能力才是制约大模型在STEM领域进行视觉推理的真正瓶颈。
基于这一深刻认知,该团队提出了一种名为CodePercept(代码驱动的视觉感知)的全新范式。该研究成果已被计算机视觉领域的顶级会议CVPR 2026正式接收。

- 开源地址:https://github.com/TongkunGuan/Qwen-CodePercept
- 论文标题:CodePercept: Code-Grounded Visual STEM Perception for MLLMs
- 论文链接:https://arxiv.org/abs/2603.10757

核心洞见:打破自然语言的“描述性失语”,以代码重塑感知
近年来,随着强化学习技术的爆发,研究者们倾向于通过设计复杂的奖励机制来提升大模型在STEM领域的跨模态推理能力。然而,研究团队在将STEM视觉推理任务解耦为“感知”与“推理”两个阶段后,得出了一个关键结论:扩展感知能力所带来的性能提升,始终优于扩展推理能力。
既然“感知”是最大的短板,那么,我们该如何有效评估并提升它呢?
痛点一:自然语言描述存在幻觉与“描述性失语”
直觉上,利用强大的闭源大模型来生成图像描述,并以此进行知识蒸馏,似乎是一个不错的选择。但研究团队指出,自然语言在STEM领域存在一个致命缺陷——“描述性失语”。复杂的空间几何关系、精确的数值坐标、多面体中错综复杂的辅助线,这些信息根本无法仅凭自然语言进行准确、完整的刻画,并且极易引发幻觉。

解决方案:针对这一痛点,研究团队提出将可执行的Python代码作为一种强有力的视觉感知媒介,并从两个维度对范式进行了重构。他们认为,代码作为一种媒介,可以通过两项基于代码的任务,显著增强多模态大语言模型的视觉感知能力:
- 代码驱动的描述生成:利用可执行代码作为生成图像描述的“真实标签”,有效消除AI生成的描述中存在的错误。
- STEM图像到代码转录:直接训练模型生成可执行的重建代码,从而彻底消除自然语言描述固有的歧义性。
痛点二:现有评估体系无法剥离“感知”与“推理”
现有的基准测试,如MathVista、MathVerse和MathVision,通常通过最终任务的问题解决准确率来评估多模态大语言模型的能力。这种做法实际上将STEM领域的感知理解与推理能力混杂在了一起。当模型失败时,我们无法判断失败究竟是源于感知缺陷还是推理能力不足。尽管近期有研究采用两阶段评估范式(先生成图像描述,再由大语言模型求解)来分离模型的感知能力,但该指标仅反映了模型理解问题相关信息的能力,并非全面的视觉感知能力。为弥补这一不足,我们提出了一种确定性且可验证的评估范式。该范式要求模型生成能够忠实再现原始图像的可执行Python代码。只有当模型实现了完整且准确的视觉理解时,它才能成功、高保真地再现原始图像。
解决方案:针对这一痛点,研究团队认为,要求多模态大语言模型生成用于图像重建的可执行Python代码,能够最严格地验证其感知能力。这一原理简单而强大:只有当模型完全理解了视觉信息时,才能实现精确的图像再现。
基于此原理,他们推出了STEM2Code-Eval:一个包含1000张图像的手动标注基准测试。该基准旨在检验模型生成用于图像重建的可执行Python代码的能力,从而对视觉感知能力进行确定性且可验证的评估。

数据基石:百万级三元组数据集ICC-1M
为了让代码成为感知的有效媒介,研究团队构建了ICC-1M数据集,其中包含100万个高质量的图像-描述-代码三元组。该数据集通过三大创新流水线合成:
- 图像复现:将现有的STEM图像精准转化为可执行的Python代码。
- 图像多样化:提取种子图像的核心STEM原理,并在不同的视觉语境中重新实例化,从而生成极其丰富且新颖的图像。
- 立体几何合成:专门针对当前多模态大模型在立体几何空间关系上的短板,开发了基于模板的立体几何代码生成流水线。
所有数据均需通过严苛的三阶段统一质量控制(包括图像质量、代码质量、图码一致性验证),以确保训练信号的绝对精准。
训练双引擎:两项“代码驱动”学习任务
基于ICC-1M数据集,CodePercept提出了两项开创性的训练任务,以系统性提升感知能力:
- 代码驱动的描述生成:将可执行代码视为图像描述的“绝对真理”,利用代码分析中的确凿事实(如坐标、数量)进行重写,彻底消除了传统视觉语言模型固有的数字和几何幻觉。
- STEM图像到代码转录:直接引导大模型生成包含详细注释的“解释性重建代码”。这不仅消除了自然语言描述的模糊性,还迫使模型深刻理解“观测特征”与“代码片段”之间的内在映射法则。
在训练策略上,团队采用了两阶段学习法:
- 第一阶段:监督微调。由于代码本质上是一种格式化的描述,因此联合优化图像到描述与图像到代码任务,使模型建立强大的感知能力。
- 第二阶段:强化学习。鉴于代码生成的容错率极低,团队引入了GRPO强化学习,专门优化代码生成。模型不仅需要拿到“格式奖励”,还要通过更严苛的“内容执行奖励”与“图码相似度奖励”,在不断的自我试错中实现能力的指数级跃迁。
硬核评测与惊艳结果
传统的评测往往用“解题正确率”来衡量感知,这不仅存在误差,还容易遗漏未被考查的视觉细节。为此,研究团队推出了STEM2Code-Eval Benchmark。这是一个包含1000张经过人工精校图像的评测基准。它要求模型直接生成Python代码来100%还原原始图像,从而提供最确定、最可验证的视觉感知评估底线。
基于Qwen3-VL架构的实验结果令人震撼:
- 解题端(Captioner-Solver)表现:当采用相同的推理求解器时,CodePercept-8B-S1 竟然超越了参数规模远大于它的开源巨头 Qwen2.5-VL-72B(优势达 6.2%),甚至逼近了 Claude-Opus 4.1-Thinking 和 GPT5-Thinking 等闭源前沿模型的水平。

- 视觉重构(STEM2Code-Eval)表现:在纯粹考查感知能力的图像还原任务中,经过强化学习优化的 CodePercept-8B-R1 取得了 63.56 分的优异成绩(相较基座提升 3.92 分),全面碾压了 Seed 1.6-Vision 和 Qwen3-VL-Plus 等超大参数规模的旗舰模型。

结语
CodePercept 的出现不仅仅标志着一个新模型的诞生,更宣告了多模态大模型在解决复杂科学问题时的一条新航线:只有给大模型装上基于代码逻辑的「火眼金睛」,真正的复杂推理之门才会被彻底叩开。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34109

