小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

上周,两个未署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别为“Hunter Alpha”和“Healer Alpha”。它们在没有任何官方宣传的情况下,调用量开始以异常的速度持续攀升。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

其中,Hunter Alpha 更是多日登顶平台日榜,累计调用量突破 1T tokens,引发了社区的广泛猜测。最主流的观点认为其来自 DeepSeek,可能是 DeepSeek V4 的内测版本。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行 OpenClaw 创始人 Peter Steinberger 在 X 平台的公开询问,进一步点燃了讨论热度。

谜底很快揭晓。小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均为其 MiMo-V2 系列大模型的早期内测版本。小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行 值得一提的是,罗福莉曾是 DeepSeek 的研究员,这在一定程度上解释了为何社区最初会将模型与 DeepSeek 联系起来。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

此次小米一次性发布了三款模型,它们虽各有侧重,但共同指向一个核心目标:推动 AI 从“对话交互”向“任务执行”进化。

  • MiMo-V2-Pro:旗舰文本基座模型,专为高强度的智能体(Agent)工作场景设计,主打复杂推理、任务规划与工具调用能力。
  • MiMo-V2-Omni:全模态智能体基座模型,原生融合文本、视觉与音频感知,旨在打通从环境理解到自主执行的完整链路。
  • MiMo-V2-TTS:语音合成大模型,目标是为智能体赋予富有情感和表现力的声音,构成任务执行栈的最后一环。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

MiMo-V2-Pro:强调推理与性价比

MiMo-V2-Pro 的总参数量突破 1T,激活参数为 42B。其在保持高效推理的同时,支持高达 1M 的超长上下文窗口,这为处理长程、复杂的智能体任务提供了结构优势。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

在权威大模型综合评测榜 Artificial Analysis 上,MiMo-V2-Pro 位列全球第八。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行 在实际能力评估中,小米强调其在代码生成、通用智能体任务和工具调用等维度,与 Claude Sonnet 4.6 处于同一梯队,代码工程能力已接近 Claude Opus 4.6。

定价策略是其另一大亮点。MiMo-V2-Pro 的 API 价格约为同级别竞品的五分之一,旨在以高性价比快速吸引开发者生态。目前,其 API 服务已正式开放。

MiMo-V2-Omni:统一感知与行动的全模态模型

MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型。其音频理解能力支持超过 10 小时的连续长音频分析;图像理解在多学科推理与复杂图表分析上表现突出;视频理解则采用原生音视频联合输入架构。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

在实操场景中,它能够完成端到端的复杂任务。例如,在测试中可操控浏览器进行信息检索、比价、与客服沟通直至完成下单。在纯文本智能体基准测试 PinchBench 上,其表现可比肩顶尖模型。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

该模型已与金山办公合作,接入 WPS 灵犀,支持直接生成各类办公文档。其 API 也已同步开放。

MiMo-V2-TTS:为智能体注入情感化声音

MiMo-V2-TTS 基于大规模语音数据训练,旨在解决智能体的“发声”问题。它支持多粒度情感控制,能在同一句话内实现语气转折,并智能识别文本中的格式信号以转化为自然的语音表达。

模型还具备方言支持、角色扮演式风格演绎及歌声合成能力。未来,其计划与 MiMo-V2-Omni 深度融合,让智能体能“看懂”世界,更能“生动地讲述”世界。

战略意义:驱动“人车家全生态”的智能中枢

三款模型的集中发布并非偶然。罗福莉透露,团队早已布局大参数模型与混合注意力等创新架构,并对智能体范式转型抱有坚定决心。小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

这三款模型构成了一个完整的 AI 能力栈:MiMo-V2-Pro 负责推理规划,MiMo-V2-Omni 负责多模态感知与执行,MiMo-V2-TTS 负责语音交互。它们正被整合进小米的“人车家全生态”战略中。

手机端的 AI 智能体“miclaw”已接入 MiMo 大模型,具备系统级执行能力;WPS、小米浏览器等应用的接入,则表明 MiMo 正在成为嵌入各类场景的基础能力层。这标志着小米正通过 Agent 驱动的 AI,为其互联互通的硬件生态注入统一的智能中枢。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26417

(0)
上一篇 2026年3月18日 下午10:05
下一篇 2026年3月19日 下午7:39

相关推荐

  • Fast3Dcache:突破3D生成瓶颈,无需训练的几何感知加速框架

    在AIGC技术迅猛发展的浪潮中,3D内容生成正成为人工智能领域的重要前沿。以TRELLIS为代表的3D生成模型,通过扩散过程逐步构建三维几何结构,其生成质量已取得显著进步。然而,这类模型普遍面临一个核心挑战:生成过程缓慢且计算密集。复杂的去噪迭代与庞大的体素计算,使得生成一个高质量3D资产往往耗时数十分钟甚至数小时,严重制约了其在实时应用、游戏开发、影视制作…

    2025年12月4日
    34500
  • 具身智能领军学者苏昊加盟复旦,领衔建设通用物理智能研究院

    具身智能领军学者苏昊加盟复旦,领衔建设通用物理智能研究院 具身智能领域论文被引次数最高的华人学者,带着十七年的海外科研积淀,正式回国。 在第五届中国三维视觉大会(China3DV 2026)上,李飞飞弟子、ImageNet缔造者之一苏昊被复旦大学正式宣布引进。加盟后,他将担任复旦大学浩清特聘教授,并领衔建设通用物理智能研究院,出任院长一职。 复旦大学将苏昊的…

    2026年4月17日
    73400
  • 三大开源神器:PageLM重塑学习体验,DeepSeek-OCR革新视觉识别,Awesome Web Agents整合AI浏览器生态

    PageLM:NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于,用户只需上传学习资料,它便能生成播客对话、测验题或复习卡片。PageLM 同样如此,它不仅能够提炼资料重点,更能将静态文本转化为互动式的学习资源。 例如,上传一份历史课件后,PageLM 可以自…

    2026年2月6日
    44800
  • 智能机器人产业生态构建:从技术突破到全要素协同的深度解析

    随着人工智能技术的飞速发展,智能机器人产业正迎来前所未有的变革机遇。从工业自动化到服务型机器人,从人形机器人到特种应用,智能机器人正逐步渗透到社会经济的各个领域。然而,产业的蓬勃发展背后,仍面临着技术瓶颈、产业链协同不足、应用场景碎片化等多重挑战。如何构建健康、可持续的产业生态,成为当前智能机器人领域亟待解决的核心问题。 从技术层面来看,智能机器人的发展高度…

    2025年11月10日
    37100
  • GPT-5.1悄然上线:自适应推理与人格化交互如何重塑AI对话体验

    近日,OpenAI在未进行大规模宣传的情况下,向部分付费用户推送了GPT-5.1版本。这一更新并非简单的迭代,而是通过引入“即时思考”(GPT-5.1 Instant)与“深度思考”(GPT-5.1 Thinking)双模式架构,重新定义了AI对话系统的响应机制。新版本的核心创新在于其自适应推理能力——系统能够根据查询的复杂程度自动匹配至合适的处理模式,从而…

    2025年11月13日
    37000