30B的小模型,竟然在重量级Agent基准测试上,超越了万亿参数的Kimi K2T?
MiroThinker v1.5的开源,似乎正在悄然改写行业长久以来对参数规模的迷信。这不仅仅是一次模型迭代,其背后以“交互深度”为核心的训练思想,可能正在定义Agent发展的新范式。

L3的影子
过去几年,AI性能的提升主要围绕两个轴心:数据规模与上下文长度。然而到了2025年,业界共识是,仅靠这两条路径的边际效益正在快速递减。
于是,两个新的趋势开始浮现。
其一是长思考能力。Nvidia在去年12月就曾指出,具备“长思考”能力的模型是下一阶段AI增长的核心驱动力。

其二是交互式扩展,或称Test-time Interaction Scaling。2025年的多项研究证明,相比于单步生成超长的思维链,通过增加模型与环境的交互次数,对提升复杂任务的成功率更为有效。

一种新的扩展定律正在形成:智能 ∝ 模型与环境的交互深度 × 反思频率。
早在MiroThinker v1.0开源时,其技术报告就提出了将“交互深度”作为继数据和上下文之后的第三个扩展维度。通过强化学习,模型能在单个任务中进行数百次工具调用,持续地查询、验证与修正。
而最新开源的v1.5版本,则通过实测案例,生动地展示了这一理念的威力。

实测对比
以一个具体的技术问题为例:想了解bge-m3向量模型与late chunking技术结合的效果。这里存在一个技术背景:bge-m3使用[CLS] token的向量,而late chunking通常需要对chunk级token的embedding进行平均池化,两者并非直接适配。
首先,使用传统搜索引擎(如Google)进行查询,结果多为概念性博客,难以找到确切的技术细节。

接着,测试了具备搜索能力的大模型以及Perplexity等AI搜索工具。它们的行为模式类似标准的搜索智能体:检索相关网页并进行总结,给出的结论与已知背景知识类似,信息增量有限。



然而,MiroThinker v1.5的表现截然不同。它已经超越了传统搜索智能体的范畴,其行为模式更像一位资深研究员:并非一次性给出答案,而是在充满噪声的信息环境中,持续提出假设、探索求证、验证结果、发现矛盾、修正假设。
它从学术论文、GitHub issue、模型讨论区等“犄角旮旯”里,挖掘出了支撑该问题的确切证据。
整个过程透明可见,最终结论的每一步都有迹可循。

技术解密
结合v1.0的技术报告与官方博客,可以窥见v1.5版本“以小搏大”背后的几个关键技术设计:
- 时序敏感沙盒:在训练中引入严格的时间管控,模型只能基于“过去”的信息进行推演,杜绝“上帝视角”。这迫使模型在真实、信息不完备的条件下进行思考,避免了因在训练中看到未来答案而产生的评估偏差。
- 过程可靠性目标:训练目标并非答案本身的对错,而是获得答案的过程是否可靠。模型被鼓励将推理拆解为可验证的子步骤,每一个关键结论都必须有明确的证据支撑,从而大幅降低“幻觉”。
- 交互质量 > 交互数量:一个有趣的细节是,v1.0支持单任务600次工具调用,而v1.5缩减至400次。这恰恰是模型进阶的表现——它学会了动态判断何时该深入探究,何时该快速收敛。通过基于时效性的动态上下文管理策略,模型不再盲目调用工具,而是进行更精准、高效的交互,只保留最有用的思考片段,这是长程思考能力成熟的关键。

结语
智能的短期未来,或许不再单纯比拼参数多寡或记忆长短,而是较量模型与世界交互的深度。当一个AI在不确定时知道主动查证,在犯错时懂得自我修正,它便已超越了传统聊天机器人的范畴,踏上了通向AGI的L3-Agent之路。
MiroThinker v1.5所展示的“小模型 + 强交互”路径,可能正是构建更通用、更可靠智能体的关键拼图。
相关资源:
* 在线体验:https://dr.miromind.ai/
* Hugging Face模型:https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B
* GitHub代码:https://github.com/MiroMindAI/MiroThinker
* MiroFlow框架:https://github.com/MiroMindAI/MiroFlow
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17457
