MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

由陈天桥带队的大模型团队MiroMind,正式发布了新一代重型推理智能体:MiroThinker-1.7MiroThinker-H1

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

“重型”意味着什么?它延续了V1.5版本的深度推理基因,旨在处理更复杂的任务并生成更精确的结果。

在多项深度研究任务的基准测试中,MiroThinker系列表现突出。其中,MiroThinker-H1刷新了多项任务的SOTA(当前最优)成绩,超越了Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等顶尖闭源模型:

  • BrowseComp(网页检索类大模型基准测试):88.2%
  • BrowseComp-ZH(BrowseComp的中文适配版本):84.4%
  • GAIA-Val-165(GAIA基准测试验证集):88.5%
  • HLE-Text(人类终极测试):47.7%

此外,开源模型MiroThinker-1.7(235B)和小尺寸的MiroThinker-1.7-mini(30B)也在效率与性能之间取得了平衡。这意味着,针对不同复杂度的推理需求,MiroMind提供了多样化的模型方案。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

新模型不仅在通用任务上表现强劲,在科技金融等专业领域同样亮眼。它跳出了传统大语言模型的聊天交互范畴,能够承担真实的长链条、高复杂度智力任务。这在一定程度上是以牺牲推理速度为代价的,显示出MiroMind在模型设计上的差异化思路:当其他厂商聚焦于速度时,MiroThinker系列则专为复杂长期任务而生

会赛车、买黄金,MiroThinker实测表现

下面进入实测环节。MiroThinker的交互界面与常规大模型对话窗口类似,支持文件上传和语音输入,并可通过“专业模式”启用更大尺寸、推理更深入的模型。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

首先,我们用它来预测一场充满变数的F1上海站正赛。在比赛前2小时、比赛中1小时、比赛最后半小时三个关键节点,我们分别让MiroThinker实时预测排名,并与最终结果比对。

比赛前2小时,我们输入指令:“在即将举办的F1上海站上,对选手排名进行预测。”

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

模型的推理过程展现了一条完整的信息搜索与整合路径:确认比赛信息→收集排位赛、冲刺赛及赛季数据→分析规则、天气等变量→综合给出预测。每一步都经过反复验证。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

其给出的赛前预测结论清晰:预测梅赛德斯车队领先,法拉利紧随其后,迈凯伦和红牛位列第二梯队。模型还使用了“完赛”等专业术语。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

随后,模型提供了简要的预测逻辑和观赛建议。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

作为对比,我们将同一问题交给ChatGPT、Gemini和DeepSeek。ChatGPT的回答相对简略;Gemini提供了赛事看点,但答案完整度不及MiroThinker;DeepSeek主要关注历史成绩和车辆情况。MiroThinker是唯一在推理中明确关注到实时天气状况的模型

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT
(图注:与其他模型预测结果的对比示意)

比赛中1小时,MiroThinker对实时信息的抓取能力凸显,它关注到了退赛情况,并分析了车手节奏与车队策略,据此微调了预测。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

到最后30分钟,MiroThinker给出的预测排名已与最终比赛结果完全一致

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

这三次预测显示,MiroThinker成功实现了信息的逐步收敛与预测的持续优化。有趣的是,在第一轮预测中,各模型对第三名的预测各不相同,而实际比赛结果因各种意外(如退赛、车队策略)而大不相同,这恰恰说明了实时推理和调整的重要性。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

此外,我们还尝试用MiroThinker进行金融预测:提前15天预估2026年2月25日的黄金价格(XAU/USD)。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

模型预测金价为 $5185/oz。实际当日,Fortune报价为$5181,150 Currency报价为$5185.89,CME GCG26收盘价为$5206.40。模型预测误差仅为0.08%(约$4),保持在合理范围内。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

综合来看,无论是短期的通用场景预测,还是中长期的专业场景预估,MiroThinker都能提供逻辑清晰、依据充分的推理,预测结果与实际高度吻合。虽然其响应速度并非“秒出”,通常需要一到两分钟的思考时间,但在答案的完整度和逻辑链深度上表现突出。

技术核心:重型求解器与精准能力提升

MiroThinker的能力提升,源于其核心技术突破——重型求解器

当前行业提升推理深度的常见做法,是通过强化学习延长模型的思维链运算时间。而MiroThinker-1.7的突破在于,它不仅延长思考时间,更强调推理过程的可验证性和每一步决策的有效性。这主要体现在两项关键技术升级上:

1. 升级智能体原生训练
MiroMind发现,如果模型每一步决策的质量不高,单纯增加交互轮次只会放大错误。因此,提升推理性能的关键在于增强智能体原生能力,即:
* 规划更可靠:初始阶段就能正确拆解问题、选择路径。
* 推理更准确:每一步判断都可验证、可反思。
* 长程不走偏:在复杂任务中始终保持与最终目标对齐。

为此,MiroThinker-1.7在训练中引入了中期训练阶段。该阶段利用大规模高质量任务数据,重点锤炼模型的规划、推理和总结能力,从而建立起更强的智能体基础能力,例如目标分解、工具调用与结果理解、答案整合等。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

在强化其原生推理能力的基础上,模型进一步通过监督微调(SFT)偏好优化(DPO)强化学习(RL) 等技术,将智能体能力深度内化,从而实现对长周期复杂任务的稳定推理。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

2. 以验证为核心的重型推理模式

提升单步推理质量,不仅依赖模型自身的推理能力,还需引入验证机制进行约束。该模式主要分为局部验证与全局验证:

  • 局部验证:在推理的每一步,系统都会暂停并进行自我审查。只有通过验证的步骤,才会被允许继续沿当前路径探索。这种方法有助于打破传统AI模型的概率偏执,发现那些即时概率较低但实际正确的路径。
  • 全局验证:在生成多条完整的推理路径后,模型会回溯整个推理链条,确保最终答案基于最严密的逻辑推导,而非语义最流畅或表面看似自洽的结论。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

简而言之,前者着重增强智能体的原生推理能力,后者则提升了交叉验证的可信度。二者的深度融合,使模型在面对复杂推理问题时,能够展现出精准且可验证的交互潜力。

一个值得关注的发现是,引入验证机制后,出现了模型交互步骤数量明显减少的“反直觉”现象。通常认为,思考步骤越多(即越“重型”),模型性能越强。而此现象表明,验证器在此过程中还扮演了过滤器的角色,能帮助模型及时筛除无效或信息增益低的步骤,将计算资源集中分配在真正推动问题解决的关键环节上。虽然总步数减少,但每一步的逻辑推理质量更高,使得整个推理过程更为高效和精密。这引出了MiroThinker系列模型的核心理念——扩展有效交互

抓住交互关键:“慢”推理的弯道超车

从V1.5到V1.7的迭代成效,验证了MiroThinker所强调的交互理念:慢下来,想更多

与单纯增加对话轮次或工具调用以快速提升基准分数不同,MiroThinker的“慢”推理不追求即时响应,而是在行动前进行暂停、验证与权衡,确保在复杂场景下能够“推得深、推得对”。这种策略旨在避免因中间步骤错误导致的误差累积与系统崩溃。

在算力约束与复杂任务的博弈中,MiroThinker并未盲目堆砌算力,而是如同精于计算最优路径的思考者,将资源精准投放在最关键的推理环节。结果表明,专注于提升有效交互的质量,“慢”并不意味着落后,反而为大型语言模型迈向真实物理世界提供了更扎实的路径。

这种“稳扎稳打”的风格也体现在MiroMind的团队建设上。自创立之初,核心团队便致力于此方向。如今,团队实力进一步增强,杜少雷安波杨凯峪三位在模型推理领域深耕多年的世界级AI科学家已加入MiroMind。他们的专长将共同推动MiroThinker向更会思考、能行动、可信任的方向进化,以应对科学、金融及工程领域的实际挑战。

MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

随着核心技术路径的确立与核心团队的完善,MiroMind已为下一阶段的发展做好了准备。


相关链接
* 项目地址:https://github.com/MiroMindAI/MiroThinker
* 模型下载:https://huggingface.co/collections/miromind-ai/mirothinker-17


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/25944

(0)
上一篇 2026年3月16日 上午11:24
下一篇 2026年3月16日 下午2:14

相关推荐

  • RL驱动的KV缓存压缩框架KV Policy:超越启发式策略SOTA性能,仅增1%预填充计算开销

    关键词:大语言模型、KV 缓存、强化学习、缓存驱逐、长上下文推理 自 Transformer 架构诞生以来,大型语言模型(LLMs)在自然语言处理领域取得了革命性进展。从文本生成到逻辑推理,从多轮对话到长文档理解,LLMs 的能力边界不断拓展。然而,模型性能的飞跃背后,是日益严峻的推理效率挑战——当处理长序列或交互式会话时,KV(Key-Value)缓存成为…

    2026年3月1日
    23600
  • 谷歌TurboQuant算法震撼发布:KV Cache压缩6倍精度零损失,AI推理迎来内存革命

    谷歌研究院在即将到来的ICLR 2026学术会议上展示了一项突破性研究,推出了名为 TurboQuant 的新型压缩算法。该算法能够将AI推理过程中内存消耗最大的KV Cache压缩至少6倍,同时实现精度零损失。这一进展被市场解读为可能显著降低长上下文AI推理对内存的需求。 KV Cache量化至3比特 要理解TurboQuant的重要性,首先需要明确其解决…

    2026年3月26日
    43200
  • 突破注意力瓶颈!FlatAttention数据流+片上集合通信协同优化,晶圆级系统实现2.9倍吞吐量提升

    关键词:晶圆级系统、大语言模型推理、FlatAttention 数据流、片上集合通信、软硬协同设计 随着大语言模型(LLM)推理的序列长度急剧增长以及混合专家(MoE)架构的普及,注意力(Attention)算子已成为制约系统整体吞吐量的核心瓶颈。传统的优化手段多局限于算法改进或硬件带宽升级等单一维度。 图 1:(a) 大语言模型在预填充与解码阶段的浮点运算…

    2026年4月7日
    27100
  • 多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

    研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 because、however、wait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。 随着多模…

    2026年4月10日
    15700
  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    21300