MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

由陈天桥带队的大模型团队MiroMind，正式发布了新一代重型推理智能体：MiroThinker-1.7 和 MiroThinker-H1。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

“重型”意味着什么？它延续了V1.5版本的深度推理基因，旨在处理更复杂的任务并生成更精确的结果。

在多项深度研究任务的基准测试中，MiroThinker系列表现突出。其中，MiroThinker-H1刷新了多项任务的SOTA（当前最优）成绩，超越了Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等顶尖闭源模型：

BrowseComp（网页检索类大模型基准测试）：88.2%
BrowseComp-ZH（BrowseComp的中文适配版本）：84.4%
GAIA-Val-165（GAIA基准测试验证集）：88.5%
HLE-Text（人类终极测试）：47.7%

此外，开源模型MiroThinker-1.7（235B）和小尺寸的MiroThinker-1.7-mini（30B）也在效率与性能之间取得了平衡。这意味着，针对不同复杂度的推理需求，MiroMind提供了多样化的模型方案。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

新模型不仅在通用任务上表现强劲，在科技金融等专业领域同样亮眼。它跳出了传统大语言模型的聊天交互范畴，能够承担真实的长链条、高复杂度智力任务。这在一定程度上是以牺牲推理速度为代价的，显示出MiroMind在模型设计上的差异化思路：当其他厂商聚焦于速度时，MiroThinker系列则专为复杂长期任务而生。

会赛车、买黄金，MiroThinker实测表现

下面进入实测环节。MiroThinker的交互界面与常规大模型对话窗口类似，支持文件上传和语音输入，并可通过“专业模式”启用更大尺寸、推理更深入的模型。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

首先，我们用它来预测一场充满变数的F1上海站正赛。在比赛前2小时、比赛中1小时、比赛最后半小时三个关键节点，我们分别让MiroThinker实时预测排名，并与最终结果比对。

比赛前2小时，我们输入指令：“在即将举办的F1上海站上，对选手排名进行预测。”

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

模型的推理过程展现了一条完整的信息搜索与整合路径：确认比赛信息→收集排位赛、冲刺赛及赛季数据→分析规则、天气等变量→综合给出预测。每一步都经过反复验证。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

其给出的赛前预测结论清晰：预测梅赛德斯车队领先，法拉利紧随其后，迈凯伦和红牛位列第二梯队。模型还使用了“完赛”等专业术语。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

随后，模型提供了简要的预测逻辑和观赛建议。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

作为对比，我们将同一问题交给ChatGPT、Gemini和DeepSeek。ChatGPT的回答相对简略；Gemini提供了赛事看点，但答案完整度不及MiroThinker；DeepSeek主要关注历史成绩和车辆情况。MiroThinker是唯一在推理中明确关注到实时天气状况的模型。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT
（图注：与其他模型预测结果的对比示意）

比赛中1小时，MiroThinker对实时信息的抓取能力凸显，它关注到了退赛情况，并分析了车手节奏与车队策略，据此微调了预测。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

到最后30分钟，MiroThinker给出的预测排名已与最终比赛结果完全一致。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

这三次预测显示，MiroThinker成功实现了信息的逐步收敛与预测的持续优化。有趣的是，在第一轮预测中，各模型对第三名的预测各不相同，而实际比赛结果因各种意外（如退赛、车队策略）而大不相同，这恰恰说明了实时推理和调整的重要性。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

此外，我们还尝试用MiroThinker进行金融预测：提前15天预估2026年2月25日的黄金价格（XAU/USD）。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

模型预测金价为 $5185/oz。实际当日，Fortune报价为$5181，150 Currency报价为$5185.89，CME GCG26收盘价为$5206.40。模型预测误差仅为0.08%（约$4），保持在合理范围内。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

综合来看，无论是短期的通用场景预测，还是中长期的专业场景预估，MiroThinker都能提供逻辑清晰、依据充分的推理，预测结果与实际高度吻合。虽然其响应速度并非“秒出”，通常需要一到两分钟的思考时间，但在答案的完整度和逻辑链深度上表现突出。

技术核心：重型求解器与精准能力提升

MiroThinker的能力提升，源于其核心技术突破——重型求解器。

当前行业提升推理深度的常见做法，是通过强化学习延长模型的思维链运算时间。而MiroThinker-1.7的突破在于，它不仅延长思考时间，更强调推理过程的可验证性和每一步决策的有效性。这主要体现在两项关键技术升级上：

1. 升级智能体原生训练
MiroMind发现，如果模型每一步决策的质量不高，单纯增加交互轮次只会放大错误。因此，提升推理性能的关键在于增强智能体原生能力，即：
* 规划更可靠：初始阶段就能正确拆解问题、选择路径。
* 推理更准确：每一步判断都可验证、可反思。
* 长程不走偏：在复杂任务中始终保持与最终目标对齐。

为此，MiroThinker-1.7在训练中引入了中期训练阶段。该阶段利用大规模高质量任务数据，重点锤炼模型的规划、推理和总结能力，从而建立起更强的智能体基础能力，例如目标分解、工具调用与结果理解、答案整合等。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

在强化其原生推理能力的基础上，模型进一步通过监督微调（SFT）、偏好优化（DPO） 和强化学习（RL） 等技术，将智能体能力深度内化，从而实现对长周期复杂任务的稳定推理。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

2. 以验证为核心的重型推理模式

提升单步推理质量，不仅依赖模型自身的推理能力，还需引入验证机制进行约束。该模式主要分为局部验证与全局验证：

局部验证：在推理的每一步，系统都会暂停并进行自我审查。只有通过验证的步骤，才会被允许继续沿当前路径探索。这种方法有助于打破传统AI模型的概率偏执，发现那些即时概率较低但实际正确的路径。
全局验证：在生成多条完整的推理路径后，模型会回溯整个推理链条，确保最终答案基于最严密的逻辑推导，而非语义最流畅或表面看似自洽的结论。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

简而言之，前者着重增强智能体的原生推理能力，后者则提升了交叉验证的可信度。二者的深度融合，使模型在面对复杂推理问题时，能够展现出精准且可验证的交互潜力。

一个值得关注的发现是，引入验证机制后，出现了模型交互步骤数量明显减少的“反直觉”现象。通常认为，思考步骤越多（即越“重型”），模型性能越强。而此现象表明，验证器在此过程中还扮演了过滤器的角色，能帮助模型及时筛除无效或信息增益低的步骤，将计算资源集中分配在真正推动问题解决的关键环节上。虽然总步数减少，但每一步的逻辑推理质量更高，使得整个推理过程更为高效和精密。这引出了MiroThinker系列模型的核心理念——扩展有效交互。

抓住交互关键：“慢”推理的弯道超车

从V1.5到V1.7的迭代成效，验证了MiroThinker所强调的交互理念：慢下来，想更多。

与单纯增加对话轮次或工具调用以快速提升基准分数不同，MiroThinker的“慢”推理不追求即时响应，而是在行动前进行暂停、验证与权衡，确保在复杂场景下能够“推得深、推得对”。这种策略旨在避免因中间步骤错误导致的误差累积与系统崩溃。

在算力约束与复杂任务的博弈中，MiroThinker并未盲目堆砌算力，而是如同精于计算最优路径的思考者，将资源精准投放在最关键的推理环节。结果表明，专注于提升有效交互的质量，“慢”并不意味着落后，反而为大型语言模型迈向真实物理世界提供了更扎实的路径。

这种“稳扎稳打”的风格也体现在MiroMind的团队建设上。自创立之初，核心团队便致力于此方向。如今，团队实力进一步增强，杜少雷、安波和杨凯峪三位在模型推理领域深耕多年的世界级AI科学家已加入MiroMind。他们的专长将共同推动MiroThinker向更会思考、能行动、可信任的方向进化，以应对科学、金融及工程领域的实际挑战。

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

随着核心技术路径的确立与核心团队的完善，MiroMind已为下一阶段的发展做好了准备。

相关链接
* 项目地址：https://github.com/MiroMindAI/MiroThinker
* 模型下载：https://huggingface.co/collections/miromind-ai/mirothinker-17

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/25944

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

会赛车、买黄金，MiroThinker实测表现

技术核心：重型求解器与精准能力提升

2. 以验证为核心的重型推理模式

抓住交互关键：“慢”推理的弯道超车

相关推荐

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

突破极端边缘计算极限：AI引擎如何让科学推理性能飙升4倍，打破FPGA部署瓶颈

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

突破NVFP4量化性能瓶颈！MIT与NVIDIA提出Four Over Six开源方案：近BF16困惑度与<2%推理开销兼得！

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题