30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

奥赛级别的科学推理，是否必须依赖更大的通用模型？

近期，上海人工智能实验室发布的一份技术报告给出了一个不同的答案：一个规模为 30B-A3B 的推理模型，在不借助任何外部工具、不执行代码、也不连接专用符号求解器的情况下，通过统一的后训练与推理时扩展，便能在 IMO、USAMO、IPhO 等高难度数学和物理奥赛评测中达到顶尖水平。

研究团队从一个已有的 30B-A3B 推理模型出发，首先利用约 33.8 万条高质量推理轨迹，通过反向困惑度课程进行监督微调。随后，他们采用 200 步的两阶段强化学习，以提升模型的解题能力和完整证明的质量。最后，在推理阶段，模型会执行多轮“生成-验证-修正”的循环。整个过程中，模型不调用外部工具、不执行代码、也不依赖专用符号求解器，却能针对高难度奥赛题，进行超过 10 万词元的纯自然语言推理。

在竞赛级评测中，经过推理阶段扩展后，该模型在 IMO 2025 和 USAMO 2026 两项赛事中均获得了 35 分，达到了金牌水平；在 IPhO 2024/2025 等物理奥赛任务中也同样斩获金牌。尤其值得一提的是，在 USAMO 2026 的第三题上，模型取得了满分，而人类选手在该题上的平均得分仅为 0.01 分，无人能超过 5 分。

更关键的是，这一成绩并非来自参数惊人的“巨无霸”模型，而是一个精巧的 30B-A3B 选手。

报告还显示，在 USAMO 2026 的推理扩展轨迹中，初始解答生成的中位长度约为 10.6 万 token，而自我修正阶段的中位长度则约为 8.3 万 token。

这充分表明，奥赛级科学推理的关键，并不仅仅在于模型规模的大小，而在于模型能否将更长的推理预算，稳定地转化为有效的证明搜索、自我验证和论证修复能力。

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

论文链接：https://arxiv.org/abs/2605.13301
开源链接：https://github.com/Simplified-Reasoning/SU-01

一般尺寸模型，也能胜任奥赛级证明？

奥林匹克竞赛题一直是检验模型长程推理能力的“硬骨头”。这类题目与常规的数学问答截然不同，仅仅得出一个正确的结论远远不够。模型必须在漫长的解题链中，持续管理假设、中间结论和边界情况，最终给出一个能经受严格评分的完整证明或推导。任何一个隐藏的论证缺口、未被覆盖的分类讨论，或是未经证明的关键引理，都可能导致整题失分。

因此，在很长一段时间里，人们很自然地将奥赛级推理与一个条件绑定在一起：更大的通用模型底座。而这份报告想要回答的，正是这个问题：

奥赛级推理任务，是否必须依赖更大、更强的通用模型？

研究团队的选择相当克制：不引入外部工具，不执行代码，不依赖符号求解器。模型从构思、证明、检查到修正，全部在自然语言中完成。

这样一来，结果就能更直接地指向模型自身的能力：一个 30B-A3B 规模的模型，仅凭自然语言推理，能否承担起奥赛级证明的重任？

先教会模型严谨推理，再让它学会自我修正

团队提出的简洁统一方案可以归纳为三个环节：监督微调塑造行为，强化学习提升解题能力，推理阶段扩展放大证明搜索。

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

图 1：方法框架，整体流程以 30B-A3B 推理主干为基础，通过监督微调、两阶段强化学习和推理阶段扩展，将模型塑造成一个能够进行证明搜索、自我验证和多轮修正的自然语言推理系统。

第一步是反向困惑度课程监督微调。研究团队从数学、科学、代码和指令跟随等来源构建长链路推理数据，并加入自验证、自修正样本，使模型学会如何组织证明、检查假设、定位漏洞并修复论证。训练过程中，样本按照初始模型困惑度从高到低排序：模型先接触与当前策略差异更大的证明轨迹，再逐步巩固更熟悉的样本。

换言之，SFT 阶段的目标并非依靠海量数据直接堆高模型能力，而是更稳定地重塑模型的推理行为，使其形成一种严谨、可检查、可修正的长程推理模式。

第二步是两阶段强化学习。第一阶段使用可验证的题目和可靠的结果奖励，高效提升模型的直接求解能力；第二阶段则进一步从“答案是否正确”转向“证明是否完整可靠”，引入证明质量奖励模型、自修正任务和经验回放机制。

其中，自修正任务让模型在看到自身不完整或存在漏洞的解答后，学习如何重新检查推理链条，并生成更完整和严谨的修正版证明；经验回放机制则用于保留训练过程中少量但高价值的成功证明轨迹，避免这些在高难问题上偶然发现的有效解法被很快遗忘。

第三步是推理阶段扩展。面对奥赛难题，模型并不只生成一次答案，而是进入“生成候选解答 – 检查完整证明 – 定位问题 – 修正解答”的循环。这里扩展的不是外部工具链，而是模型自身的自然语言验证与修正计算。

10 万 token 级奥赛推理，不只是把答案写长

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

图 2：IMO-Bench 所含 ProofBench 结果。SU-01 在直接生成时取得 57.6%，经推理阶段扩展提升至 70.2%，显著超越同尺寸模型，并接近 Gemini 3.1 Pro Thinking 等强闭源模型。

报告结果显示，SU-01 在证明级评测中已经展现出强大的长程推理能力。在 IMO-ProofBench 上，SU-01 直接生成时取得了 57.6% 的成绩，这已经是同尺寸模型中的最佳结果；经过推理阶段扩展后，整体得分进一步提升至 70.2%，显著超越同尺寸模型，并接近 Gemini 3.1 Pro Thinking 的 72.6%。

这说明，一般尺寸模型不仅可以追求最终答案的正确性，也可以通过统一的训练与推理组织来提升完整证明的质量。

报告还进一步指出，SU-01 的能力并不局限于竞赛题。在更接近科研问题形态的 FrontierScience-Research 评测中，SU-01 取得了同尺寸模型中的最佳成绩，表明这套训练方案不仅适用于奥赛基准，也具备向研究型科学问题泛化的潜力。

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

图 2：USAMO 2026 推理阶段扩展流程中不同动作的生成长度分布。

推理阶段扩展进一步放大了模型的证明搜索和自我修正能力。通过“生成候选解答 – 检查完整证明 – 定位问题 – 修正解答”的多轮循环，模型能够将不完整或不稳定的尝试，转化为严谨连贯的完整解答。

报告中的推理扩展分析显示，在 USAMO 2026 的推理扩展轨迹中，初始解答生成的中位长度约为 10.6 万词元，修正阶段的中位长度约为 8.3 万词元。

换言之，模型在 30B-A3B 规模下，仍能持续开展 10 万词元量级的有效推理，并将长程计算用于证明构造、漏洞定位和论证修复。

数学与物理奥赛金牌水平推理

在奥林匹克官方竞赛题上，SU-01 在数学奥赛和物理奥赛任务上均展现出金牌水平的推理能力。

数学奥赛方面，模型在单次直接生成时已经具备较强的解题能力：IMO 2025 取得 21 分，在 P2 获得满分，在 P4、P5 上接近满分；USAMO 2026 取得 15 分，在 P1、P4 获得满分。经过推理阶段扩展后，模型在 IMO 2025 和 USAMO 2026 均取得 35 分，达到了对应的金牌级水平。

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

表 1：数学奥林匹克竞赛评测结果。评测涵盖 IMO 2025 和 USAMO 2026 两项赛事；其中，IMO 2025 的金/银/铜牌线为 35/28/19 分，USAMO 2026 的金/银/铜牌线为 25/18/11 分。

尤其在最近的美国数学奥林匹克 USAMO 2026 上，SU-01 取得了 35 分，远超该赛事 25 分的金牌线，并达到了人类选手的最高分水平。

根据 340 名人类选手的得分统计，USAMO 2026 的平均分为 8.59 分，中位数仅为 6 分，Top 12 分数线为 26 分，Top 24 分数线为 23 分，整场最高分为 35 分；从分题统计看，P2、P3、P6 难度尤其突出，其中 P3 平均分仅 0.01 分、无人达到 5 分以上，而 SU-01 在该题取得了满分成绩。

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

图 4：USAMO 2026 人类选手成绩分布与各题难度解析。该届竞赛共有 340 名参与者，整体平均分为 8.59 分，中位数仅为 6 分。前 12 名与前 24 名的分数线分别设定为 26 分和 23 分，最高得分为 35 分。从各题统计数据来看，P2、P3 和 P6 的难度显著偏高，其中 P3 的平均得分低至 0.01 分，且没有任何选手在该题上获得超过 5 分的成绩。（数据来源：https://web.evanchen.cc/exams/posted-usamo-statistics.pdf）

这一结果表明，SU-01 所取得的 35 分并非源于常规题目的稳定发挥，而是在高难度证明题上实现了关键性突破，其综合表现已与顶尖人类选手不相上下。

一个尤为突出的案例是 USAMO 2026 的 P3 题：该模型并未采用传统的综合几何解题路径，而是巧妙地运用复数方法，将单位圆、等边三角形旋转、弦关系以及切线条件整合在统一的代数框架内。此举将通常需要通过角追踪与辅助线构造来处理的几何配置，转化为一种结构清晰的解析表达形式。

而在 IMO 2025 的 P2 题中，模型则展现了另一种互补能力：它将一个涉及两相交圆、垂心及切线判定的几何问题，简化为坐标与距离的计算过程。

其他值得关注的例子还包括 USAMO P4 题中基于进位状态的动态规划解法，以及 USAMO P6 题里融合欧拉函数、同余、Vieta jumping 与 Fibonacci 结构的数论证明。

在物理奥赛领域，该模型在 IPhO 2024/2025 中直接生成的答案已超越金牌线；在扩展推理阶段后，其成绩进一步提升。

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

表 2：物理奥林匹克竞赛评测结果。评测覆盖 IPhO 2024 与 IPhO 2025 两届赛事；其中，IPhO 2024 的金牌线为 20.8 分，IPhO 2025 的金牌线为 19.7 分。表中 x /y 分别代表模型在直接生成模式与推理阶段扩展模式下的得分。

构建更高效的科学推理系统路径

这项工作的核心价值超越了单纯的奥赛分数，其关键在于验证了一条构建更高效科学推理系统的可行路线：以现有推理模型为基础，通过严谨的推理行为塑造、证明级别的奖励设计，以及推理过程中“生成 – 验证 – 修正”的闭环机制，将有限规模模型的计算资源转化为可评分、可验证的证明能力。

展望未来，这一路线有望从数学与物理奥赛领域，拓展至更广泛的科学问题求解场景，从而成为构建高效、可靠、可验证科学智能系统的一种通用方法论。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35383

30B小模型拿下奥赛金牌：不靠外部工具，纯自然语言推理也能达到IMO满分水平

相关推荐

Parallel-Probe：大模型并行推理效率革命，计算浪费减少35.8%

英伟达200亿美元豪购Groq：黄仁勋的AI推理野心与LPU芯片的颠覆性革命

斯坦福团队突破大模型推理瓶颈：SSD框架实现草拟验证并行，推理速度提升2倍

移动端大模型部署新突破：Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型

Mirage Persistent Kernel：突破LLM推理极限，自动巨核化技术实现1.7倍性能飞跃