MiroThinker v1.5：30B小模型颠覆万亿参数Agent，交互深度成AI新范式

2026年1月8日下午2:12 • 大模型工程 • 阅读 197

30B的小模型，竟然在重量级Agent基准测试上，超越了万亿参数的Kimi K2T？

MiroThinker v1.5的开源，似乎正在悄然改写行业长久以来对参数规模的迷信。这不仅仅是一次模型迭代，其背后以“交互深度”为核心的训练思想，可能正在定义Agent发展的新范式。

过去几年，AI性能的提升主要围绕两个轴心：数据规模与上下文长度。然而到了2025年，业界共识是，仅靠这两条路径的边际效益正在快速递减。

于是，两个新的趋势开始浮现。

其一是长思考能力。Nvidia在去年12月就曾指出，具备“长思考”能力的模型是下一阶段AI增长的核心驱动力。

其二是交互式扩展，或称Test-time Interaction Scaling。2025年的多项研究证明，相比于单步生成超长的思维链，通过增加模型与环境的交互次数，对提升复杂任务的成功率更为有效。

一种新的扩展定律正在形成：智能 ∝ 模型与环境的交互深度 × 反思频率。

早在MiroThinker v1.0开源时，其技术报告就提出了将“交互深度”作为继数据和上下文之后的第三个扩展维度。通过强化学习，模型能在单个任务中进行数百次工具调用，持续地查询、验证与修正。

而最新开源的v1.5版本，则通过实测案例，生动地展示了这一理念的威力。

以一个具体的技术问题为例：想了解bge-m3向量模型与late chunking技术结合的效果。这里存在一个技术背景：bge-m3使用[CLS] token的向量，而late chunking通常需要对chunk级token的embedding进行平均池化，两者并非直接适配。

首先，使用传统搜索引擎（如Google）进行查询，结果多为概念性博客，难以找到确切的技术细节。

接着，测试了具备搜索能力的大模型以及Perplexity等AI搜索工具。它们的行为模式类似标准的搜索智能体：检索相关网页并进行总结，给出的结论与已知背景知识类似，信息增量有限。

然而，MiroThinker v1.5的表现截然不同。它已经超越了传统搜索智能体的范畴，其行为模式更像一位资深研究员：并非一次性给出答案，而是在充满噪声的信息环境中，持续提出假设、探索求证、验证结果、发现矛盾、修正假设。

它从学术论文、GitHub issue、模型讨论区等“犄角旮旯”里，挖掘出了支撑该问题的确切证据。

整个过程透明可见，最终结论的每一步都有迹可循。

结合v1.0的技术报告与官方博客，可以窥见v1.5版本“以小搏大”背后的几个关键技术设计：

时序敏感沙盒：在训练中引入严格的时间管控，模型只能基于“过去”的信息进行推演，杜绝“上帝视角”。这迫使模型在真实、信息不完备的条件下进行思考，避免了因在训练中看到未来答案而产生的评估偏差。
过程可靠性目标：训练目标并非答案本身的对错，而是获得答案的过程是否可靠。模型被鼓励将推理拆解为可验证的子步骤，每一个关键结论都必须有明确的证据支撑，从而大幅降低“幻觉”。
交互质量 > 交互数量：一个有趣的细节是，v1.0支持单任务600次工具调用，而v1.5缩减至400次。这恰恰是模型进阶的表现——它学会了动态判断何时该深入探究，何时该快速收敛。通过基于时效性的动态上下文管理策略，模型不再盲目调用工具，而是进行更精准、高效的交互，只保留最有用的思考片段，这是长程思考能力成熟的关键。