MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

30B的小模型,竟然在重量级Agent基准测试上,超越了万亿参数的Kimi K2T?

MiroThinker v1.5的开源,似乎正在悄然改写行业长久以来对参数规模的迷信。这不仅仅是一次模型迭代,其背后以“交互深度”为核心的训练思想,可能正在定义Agent发展的新范式。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

L3的影子

过去几年,AI性能的提升主要围绕两个轴心:数据规模与上下文长度。然而到了2025年,业界共识是,仅靠这两条路径的边际效益正在快速递减。

于是,两个新的趋势开始浮现。

其一是长思考能力。Nvidia在去年12月就曾指出,具备“长思考”能力的模型是下一阶段AI增长的核心驱动力。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

其二是交互式扩展,或称Test-time Interaction Scaling。2025年的多项研究证明,相比于单步生成超长的思维链,通过增加模型与环境的交互次数,对提升复杂任务的成功率更为有效。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

一种新的扩展定律正在形成:智能 ∝ 模型与环境的交互深度 × 反思频率

早在MiroThinker v1.0开源时,其技术报告就提出了将“交互深度”作为继数据和上下文之后的第三个扩展维度。通过强化学习,模型能在单个任务中进行数百次工具调用,持续地查询、验证与修正。

而最新开源的v1.5版本,则通过实测案例,生动地展示了这一理念的威力。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

实测对比

以一个具体的技术问题为例:想了解bge-m3向量模型与late chunking技术结合的效果。这里存在一个技术背景:bge-m3使用[CLS] token的向量,而late chunking通常需要对chunk级token的embedding进行平均池化,两者并非直接适配。

首先,使用传统搜索引擎(如Google)进行查询,结果多为概念性博客,难以找到确切的技术细节。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

接着,测试了具备搜索能力的大模型以及Perplexity等AI搜索工具。它们的行为模式类似标准的搜索智能体:检索相关网页并进行总结,给出的结论与已知背景知识类似,信息增量有限。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式
MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式
MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

然而,MiroThinker v1.5的表现截然不同。它已经超越了传统搜索智能体的范畴,其行为模式更像一位资深研究员:并非一次性给出答案,而是在充满噪声的信息环境中,持续提出假设、探索求证、验证结果、发现矛盾、修正假设。

它从学术论文、GitHub issue、模型讨论区等“犄角旮旯”里,挖掘出了支撑该问题的确切证据。

整个过程透明可见,最终结论的每一步都有迹可循。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

技术解密

结合v1.0的技术报告与官方博客,可以窥见v1.5版本“以小搏大”背后的几个关键技术设计:

  1. 时序敏感沙盒:在训练中引入严格的时间管控,模型只能基于“过去”的信息进行推演,杜绝“上帝视角”。这迫使模型在真实、信息不完备的条件下进行思考,避免了因在训练中看到未来答案而产生的评估偏差。
  2. 过程可靠性目标:训练目标并非答案本身的对错,而是获得答案的过程是否可靠。模型被鼓励将推理拆解为可验证的子步骤,每一个关键结论都必须有明确的证据支撑,从而大幅降低“幻觉”。
  3. 交互质量 > 交互数量:一个有趣的细节是,v1.0支持单任务600次工具调用,而v1.5缩减至400次。这恰恰是模型进阶的表现——它学会了动态判断何时该深入探究,何时该快速收敛。通过基于时效性的动态上下文管理策略,模型不再盲目调用工具,而是进行更精准、高效的交互,只保留最有用的思考片段,这是长程思考能力成熟的关键。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

结语

智能的短期未来,或许不再单纯比拼参数多寡或记忆长短,而是较量模型与世界交互的深度。当一个AI在不确定时知道主动查证,在犯错时懂得自我修正,它便已超越了传统聊天机器人的范畴,踏上了通向AGI的L3-Agent之路。

MiroThinker v1.5所展示的“小模型 + 强交互”路径,可能正是构建更通用、更可靠智能体的关键拼图。

相关资源
* 在线体验:https://dr.miromind.ai/
* Hugging Face模型:https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B
* GitHub代码:https://github.com/MiroMindAI/MiroThinker
* MiroFlow框架:https://github.com/MiroMindAI/MiroFlow


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17457

(0)
上一篇 2026年1月8日 下午1:57
下一篇 2026年1月8日 下午11:53

相关推荐

  • Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

    Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率 近年来,视觉-语言模型在多模态理解任务中取得了显著进展。为了降低推理成本,模型通常通过语言到视觉的注意力来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝。 然而,一个长期被忽视的问题是:注意力本身是否真的能够作为“语义重要性”的可靠指标? 上海大学曾丹团队在最…

    5天前
    4500
  • AI时代编程革命:MoltBot之父的20条哲学,揭示从代码打字员到品味制造者的蜕变

    MoltBot(Clawdbot)在短短数日内迅速爆火,其传播势头甚至超越了此前的Manus。各大厂商争相推出适配方案,对于一个开源项目而言,这样的传播速度实属罕见,其GitHub星数也以前所未有的斜率增长。作为其开发者,Peter Steinberger近日在一档播客中分享了他对AI的深度思考。以下是提炼出的20条核心观点。 [[IMAGE_1]] 关于心…

    大模型工程 2天前
    2200
  • GraphRAG革命:知识图谱与向量数据库的协同进化

    Knowledge graphs 和 vector databases 常被定位为彼此竞争的技术,但这种框架忽略了问题的本质。 它们是对立的吗?简短回答:不是。 它们解决的是根本不同的问题。事实上,它们最好的状态是协同,而不是对抗。如果你在构建现代 AI 系统,把它们当作对手是一种设计缺陷。 更好的理解方式是: Knowledge Graph = 结构化大脑…

    2025年12月28日
    8800
  • OpenAI研究员揭秘:Codex内部评估机制与AI产品落地的50+实战经验

    昨日,两位来自 OpenAI 及前微软的 AI 产品一线从业者——Aishwarya Naresh Reganti 与 Kiriti Badam,在 Lenny 的播客节目中深入分享了他们在超过 50 个 AI 产品落地项目中的实践经验与教训。 这些经验源于反复的试错与总结。播客主持人 Lenny 提炼出一个核心观点:痛苦是新的护城河。 两位嘉宾均具备深厚的…

    2026年1月12日
    7100
  • NitroGen:英伟达开源通用游戏AI模型,可零样本玩转千款游戏

    这流畅的游戏操作,堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、攻击一气呵成,令人惊叹。 最令人震撼的是,这些操作完全由AI完成。 与传统的单一游戏自动化脚本不同,这是一个完整的通用大模型,能够玩遍市面上几乎全部的游戏类型。 这就是英伟达最新开源的基础模型——NitroGen。 该模型的训练目标是玩转1000款以上的游戏,无论是RPG、平台跳跃、…

    2025年12月21日
    7700