上周,两个未署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别为“Hunter Alpha”和“Healer Alpha”。它们在没有任何官方宣传的情况下,调用量开始以异常的速度持续攀升。
其中,Hunter Alpha 更是多日登顶平台日榜,累计调用量突破 1T tokens,引发了社区的广泛猜测。最主流的观点认为其来自 DeepSeek,可能是 DeepSeek V4 的内测版本。
OpenClaw 创始人 Peter Steinberger 在 X 平台的公开询问,进一步点燃了讨论热度。
谜底很快揭晓。小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均为其 MiMo-V2 系列大模型的早期内测版本。小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。
值得一提的是,罗福莉曾是 DeepSeek 的研究员,这在一定程度上解释了为何社区最初会将模型与 DeepSeek 联系起来。
此次小米一次性发布了三款模型,它们虽各有侧重,但共同指向一个核心目标:推动 AI 从“对话交互”向“任务执行”进化。
- MiMo-V2-Pro:旗舰文本基座模型,专为高强度的智能体(Agent)工作场景设计,主打复杂推理、任务规划与工具调用能力。
- MiMo-V2-Omni:全模态智能体基座模型,原生融合文本、视觉与音频感知,旨在打通从环境理解到自主执行的完整链路。
- MiMo-V2-TTS:语音合成大模型,目标是为智能体赋予富有情感和表现力的声音,构成任务执行栈的最后一环。

MiMo-V2-Pro:强调推理与性价比
MiMo-V2-Pro 的总参数量突破 1T,激活参数为 42B。其在保持高效推理的同时,支持高达 1M 的超长上下文窗口,这为处理长程、复杂的智能体任务提供了结构优势。
在权威大模型综合评测榜 Artificial Analysis 上,MiMo-V2-Pro 位列全球第八。
在实际能力评估中,小米强调其在代码生成、通用智能体任务和工具调用等维度,与 Claude Sonnet 4.6 处于同一梯队,代码工程能力已接近 Claude Opus 4.6。
定价策略是其另一大亮点。MiMo-V2-Pro 的 API 价格约为同级别竞品的五分之一,旨在以高性价比快速吸引开发者生态。目前,其 API 服务已正式开放。
MiMo-V2-Omni:统一感知与行动的全模态模型
MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型。其音频理解能力支持超过 10 小时的连续长音频分析;图像理解在多学科推理与复杂图表分析上表现突出;视频理解则采用原生音视频联合输入架构。
在实操场景中,它能够完成端到端的复杂任务。例如,在测试中可操控浏览器进行信息检索、比价、与客服沟通直至完成下单。在纯文本智能体基准测试 PinchBench 上,其表现可比肩顶尖模型。
该模型已与金山办公合作,接入 WPS 灵犀,支持直接生成各类办公文档。其 API 也已同步开放。
MiMo-V2-TTS:为智能体注入情感化声音
MiMo-V2-TTS 基于大规模语音数据训练,旨在解决智能体的“发声”问题。它支持多粒度情感控制,能在同一句话内实现语气转折,并智能识别文本中的格式信号以转化为自然的语音表达。
模型还具备方言支持、角色扮演式风格演绎及歌声合成能力。未来,其计划与 MiMo-V2-Omni 深度融合,让智能体能“看懂”世界,更能“生动地讲述”世界。
战略意义:驱动“人车家全生态”的智能中枢
三款模型的集中发布并非偶然。罗福莉透露,团队早已布局大参数模型与混合注意力等创新架构,并对智能体范式转型抱有坚定决心。
这三款模型构成了一个完整的 AI 能力栈:MiMo-V2-Pro 负责推理规划,MiMo-V2-Omni 负责多模态感知与执行,MiMo-V2-TTS 负责语音交互。它们正被整合进小米的“人车家全生态”战略中。
手机端的 AI 智能体“miclaw”已接入 MiMo 大模型,具备系统级执行能力;WPS、小米浏览器等应用的接入,则表明 MiMo 正在成为嵌入各类场景的基础能力层。这标志着小米正通过 Agent 驱动的 AI,为其互联互通的硬件生态注入统一的智能中枢。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26417


