MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

30B的小模型,竟然在重量级Agent基准测试上,超越了万亿参数的Kimi K2T?

MiroThinker v1.5的开源,似乎正在悄然改写行业长久以来对参数规模的迷信。这不仅仅是一次模型迭代,其背后以“交互深度”为核心的训练思想,可能正在定义Agent发展的新范式。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

L3的影子

过去几年,AI性能的提升主要围绕两个轴心:数据规模与上下文长度。然而到了2025年,业界共识是,仅靠这两条路径的边际效益正在快速递减。

于是,两个新的趋势开始浮现。

其一是长思考能力。Nvidia在去年12月就曾指出,具备“长思考”能力的模型是下一阶段AI增长的核心驱动力。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

其二是交互式扩展,或称Test-time Interaction Scaling。2025年的多项研究证明,相比于单步生成超长的思维链,通过增加模型与环境的交互次数,对提升复杂任务的成功率更为有效。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

一种新的扩展定律正在形成:智能 ∝ 模型与环境的交互深度 × 反思频率

早在MiroThinker v1.0开源时,其技术报告就提出了将“交互深度”作为继数据和上下文之后的第三个扩展维度。通过强化学习,模型能在单个任务中进行数百次工具调用,持续地查询、验证与修正。

而最新开源的v1.5版本,则通过实测案例,生动地展示了这一理念的威力。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

实测对比

以一个具体的技术问题为例:想了解bge-m3向量模型与late chunking技术结合的效果。这里存在一个技术背景:bge-m3使用[CLS] token的向量,而late chunking通常需要对chunk级token的embedding进行平均池化,两者并非直接适配。

首先,使用传统搜索引擎(如Google)进行查询,结果多为概念性博客,难以找到确切的技术细节。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

接着,测试了具备搜索能力的大模型以及Perplexity等AI搜索工具。它们的行为模式类似标准的搜索智能体:检索相关网页并进行总结,给出的结论与已知背景知识类似,信息增量有限。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式
MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式
MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

然而,MiroThinker v1.5的表现截然不同。它已经超越了传统搜索智能体的范畴,其行为模式更像一位资深研究员:并非一次性给出答案,而是在充满噪声的信息环境中,持续提出假设、探索求证、验证结果、发现矛盾、修正假设。

它从学术论文、GitHub issue、模型讨论区等“犄角旮旯”里,挖掘出了支撑该问题的确切证据。

整个过程透明可见,最终结论的每一步都有迹可循。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

技术解密

结合v1.0的技术报告与官方博客,可以窥见v1.5版本“以小搏大”背后的几个关键技术设计:

  1. 时序敏感沙盒:在训练中引入严格的时间管控,模型只能基于“过去”的信息进行推演,杜绝“上帝视角”。这迫使模型在真实、信息不完备的条件下进行思考,避免了因在训练中看到未来答案而产生的评估偏差。
  2. 过程可靠性目标:训练目标并非答案本身的对错,而是获得答案的过程是否可靠。模型被鼓励将推理拆解为可验证的子步骤,每一个关键结论都必须有明确的证据支撑,从而大幅降低“幻觉”。
  3. 交互质量 > 交互数量:一个有趣的细节是,v1.0支持单任务600次工具调用,而v1.5缩减至400次。这恰恰是模型进阶的表现——它学会了动态判断何时该深入探究,何时该快速收敛。通过基于时效性的动态上下文管理策略,模型不再盲目调用工具,而是进行更精准、高效的交互,只保留最有用的思考片段,这是长程思考能力成熟的关键。

MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

结语

智能的短期未来,或许不再单纯比拼参数多寡或记忆长短,而是较量模型与世界交互的深度。当一个AI在不确定时知道主动查证,在犯错时懂得自我修正,它便已超越了传统聊天机器人的范畴,踏上了通向AGI的L3-Agent之路。

MiroThinker v1.5所展示的“小模型 + 强交互”路径,可能正是构建更通用、更可靠智能体的关键拼图。

相关资源
* 在线体验:https://dr.miromind.ai/
* Hugging Face模型:https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B
* GitHub代码:https://github.com/MiroMindAI/MiroThinker
* MiroFlow框架:https://github.com/MiroMindAI/MiroFlow


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17457

(0)
上一篇 2026年1月8日 下午1:57
下一篇 2026年1月8日 下午11:53

相关推荐

  • OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

    OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42% 随着多模态大模型向“全模态”演进,Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而,这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token,其中大量是冗余信息。注意力可视化实验揭示,在多模态…

    2026年3月11日
    8900
  • GraphRAG深度解析:融合Neo4j与LangChain,构建下一代知识增强型LLM系统

    LLM 已从根本上改变了我们与数据交互、自动化推理以及构建智能系统的方式。然而,尽管其生成式能力令人印象深刻,LLM 天生并不理解关系、结构或长期的事实一致性。这一缺陷在我们尝试将 LLM 用于企业级知识系统、多跳推理或决策关键型应用时尤为明显。 这正是图数据库与 RAG 结合之处,二者共同为 AI 系统形成一种新的架构范式——将符号推理与神经生成相融合。 …

    2025年12月27日
    26300
  • FastAPI与Redis联手打造智能限流:构建公平可靠的API防护体系

    如何保护你的后端,让付费客户满意,并避免“你的 API 糟透了”的吐槽。 本文将探讨如何利用 Redis 构建一个公平、基于 FastAPI 的 API 限流系统。你将学习到核心模式、实现代码以及提升用户体验的技巧,在有效保护后端的同时,避免激怒用户。 限流(Rate Limiting)通常不会引起你的注意……直到它突然打乱你的工作节奏。 例如,当你调用某个…

    2025年12月19日
    19100
  • 告别AI作弊与偷懒:强化学习如何成为真正的GPU内核优化专家

    关键词:强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化 告别“作弊”与“偷懒”,让强化学习成为真正的 GPU 内核优化专家 训练一个能够编写高效 GPU 内核的 AI 程序员,是加速大模型训练的关键。然而,在实践中,AI 往往会陷入两种困境:一是“作弊”,即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励;二是“偷懒”,即只解决简单…

    1天前
    4200
  • LLM与强化学习融合:开启智能推荐新纪元,首篇系统性综述发布

    强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。近期,大语言模型(LLM)的崛起带来了新机遇。LLM 凭借常识储备、推理能力和语义天赋,不仅能让智能体更懂用户,还能充当高保真的环境模拟器。LL…

    2026年3月3日
    16800