MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

由陈天桥带队的大模型团队MiroMind,正式发布了新一代重型推理智能体:MiroThinker-1.7MiroThinker-H1

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

“重型”意味着什么?它延续了V1.5版本的深度推理基因,旨在处理更复杂的任务并生成更精确的结果。

在多项深度研究任务的基准测试中,MiroThinker系列表现突出。其中,MiroThinker-H1刷新了多项任务的SOTA(当前最优)成绩,超越了Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等顶尖闭源模型:

  • BrowseComp(网页检索类大模型基准测试):88.2%
  • BrowseComp-ZH(BrowseComp的中文适配版本):84.4%
  • GAIA-Val-165(GAIA基准测试验证集):88.5%
  • HLE-Text(人类终极测试):47.7%

此外,开源模型MiroThinker-1.7(235B)和小尺寸的MiroThinker-1.7-mini(30B)也在效率与性能之间取得了平衡。这意味着,针对不同复杂度的推理需求,MiroMind提供了多样化的模型方案。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

新模型不仅在通用任务上表现强劲,在科技金融等专业领域同样亮眼。它跳出了传统大语言模型的聊天交互范畴,能够承担真实的长链条、高复杂度智力任务。这在一定程度上是以牺牲推理速度为代价的,显示出MiroMind在模型设计上的差异化思路:当其他厂商聚焦于速度时,MiroThinker系列则专为复杂长期任务而生

会赛车、买黄金,MiroThinker实测表现

下面进入实测环节。MiroThinker的交互界面与常规大模型对话窗口类似,支持文件上传和语音输入,并可通过“专业模式”启用更大尺寸、推理更深入的模型。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

首先,我们用它来预测一场充满变数的F1上海站正赛。在比赛前2小时、比赛中1小时、比赛最后半小时三个关键节点,我们分别让MiroThinker实时预测排名,并与最终结果比对。

比赛前2小时,我们输入指令:“在即将举办的F1上海站上,对选手排名进行预测。”

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

模型的推理过程展现了一条完整的信息搜索与整合路径:确认比赛信息→收集排位赛、冲刺赛及赛季数据→分析规则、天气等变量→综合给出预测。每一步都经过反复验证。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

其给出的赛前预测结论清晰:预测梅赛德斯车队领先,法拉利紧随其后,迈凯伦和红牛位列第二梯队。模型还使用了“完赛”等专业术语。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

随后,模型提供了简要的预测逻辑和观赛建议。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

作为对比,我们将同一问题交给ChatGPT、Gemini和DeepSeek。ChatGPT的回答相对简略;Gemini提供了赛事看点,但答案完整度不及MiroThinker;DeepSeek主要关注历史成绩和车辆情况。MiroThinker是唯一在推理中明确关注到实时天气状况的模型

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT
(图注:与其他模型预测结果的对比示意)

比赛中1小时,MiroThinker对实时信息的抓取能力凸显,它关注到了退赛情况,并分析了车手节奏与车队策略,据此微调了预测。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

到最后30分钟,MiroThinker给出的预测排名已与最终比赛结果完全一致

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

这三次预测显示,MiroThinker成功实现了信息的逐步收敛与预测的持续优化。有趣的是,在第一轮预测中,各模型对第三名的预测各不相同,而实际比赛结果因各种意外(如退赛、车队策略)而大不相同,这恰恰说明了实时推理和调整的重要性。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

此外,我们还尝试用MiroThinker进行金融预测:提前15天预估2026年2月25日的黄金价格(XAU/USD)。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

模型预测金价为 $5185/oz。实际当日,Fortune报价为$5181,150 Currency报价为$5185.89,CME GCG26收盘价为$5206.40。模型预测误差仅为0.08%(约$4),保持在合理范围内。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

综合来看,无论是短期的通用场景预测,还是中长期的专业场景预估,MiroThinker都能提供逻辑清晰、依据充分的推理,预测结果与实际高度吻合。虽然其响应速度并非“秒出”,通常需要一到两分钟的思考时间,但在答案的完整度和逻辑链深度上表现突出。

技术核心:重型求解器与精准能力提升

MiroThinker的能力提升,源于其核心技术突破——重型求解器

当前行业提升推理深度的常见做法,是通过强化学习延长模型的思维链运算时间。而MiroThinker-1.7的突破在于,它不仅延长思考时间,更强调推理过程的可验证性和每一步决策的有效性。这主要体现在两项关键技术升级上:

1. 升级智能体原生训练
MiroMind发现,如果模型每一步决策的质量不高,单纯增加交互轮次只会放大错误。因此,提升推理性能的关键在于增强智能体原生能力,即:
* 规划更可靠:初始阶段就能正确拆解问题、选择路径。
* 推理更准确:每一步判断都可验证、可反思。
* 长程不走偏:在复杂任务中始终保持与最终目标对齐。

为此,MiroThinker-1.7在训练中引入了中期训练阶段。该阶段利用大规模高质量任务数据,重点锤炼模型的规划、推理和总结能力,从而建立起更强的智能体基础能力,例如目标分解、工具调用与结果理解、答案整合等。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

在强化其原生推理能力的基础上,模型进一步通过监督微调(SFT)偏好优化(DPO)强化学习(RL) 等技术,将智能体能力深度内化,从而实现对长周期复杂任务的稳定推理。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

2. 以验证为核心的重型推理模式

提升单步推理质量,不仅依赖模型自身的推理能力,还需引入验证机制进行约束。该模式主要分为局部验证与全局验证:

  • 局部验证:在推理的每一步,系统都会暂停并进行自我审查。只有通过验证的步骤,才会被允许继续沿当前路径探索。这种方法有助于打破传统AI模型的概率偏执,发现那些即时概率较低但实际正确的路径。
  • 全局验证:在生成多条完整的推理路径后,模型会回溯整个推理链条,确保最终答案基于最严密的逻辑推导,而非语义最流畅或表面看似自洽的结论。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

简而言之,前者着重增强智能体的原生推理能力,后者则提升了交叉验证的可信度。二者的深度融合,使模型在面对复杂推理问题时,能够展现出精准且可验证的交互潜力。

一个值得关注的发现是,引入验证机制后,出现了模型交互步骤数量明显减少的“反直觉”现象。通常认为,思考步骤越多(即越“重型”),模型性能越强。而此现象表明,验证器在此过程中还扮演了过滤器的角色,能帮助模型及时筛除无效或信息增益低的步骤,将计算资源集中分配在真正推动问题解决的关键环节上。虽然总步数减少,但每一步的逻辑推理质量更高,使得整个推理过程更为高效和精密。这引出了MiroThinker系列模型的核心理念——扩展有效交互

抓住交互关键:“慢”推理的弯道超车

从V1.5到V1.7的迭代成效,验证了MiroThinker所强调的交互理念:慢下来,想更多

与单纯增加对话轮次或工具调用以快速提升基准分数不同,MiroThinker的“慢”推理不追求即时响应,而是在行动前进行暂停、验证与权衡,确保在复杂场景下能够“推得深、推得对”。这种策略旨在避免因中间步骤错误导致的误差累积与系统崩溃。

在算力约束与复杂任务的博弈中,MiroThinker并未盲目堆砌算力,而是如同精于计算最优路径的思考者,将资源精准投放在最关键的推理环节。结果表明,专注于提升有效交互的质量,“慢”并不意味着落后,反而为大型语言模型迈向真实物理世界提供了更扎实的路径。

这种“稳扎稳打”的风格也体现在MiroMind的团队建设上。自创立之初,核心团队便致力于此方向。如今,团队实力进一步增强,杜少雷安波杨凯峪三位在模型推理领域深耕多年的世界级AI科学家已加入MiroMind。他们的专长将共同推动MiroThinker向更会思考、能行动、可信任的方向进化,以应对科学、金融及工程领域的实际挑战。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

随着核心技术路径的确立与核心团队的完善,MiroMind已为下一阶段的发展做好了准备。


相关链接
* 项目地址:https://github.com/MiroMindAI/MiroThinker
* 模型下载:https://huggingface.co/collections/miromind-ai/mirothinker-17


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25944

(0)
上一篇 6小时前
下一篇 3小时前

相关推荐