小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

先别讨论什么参数和基准测试了，来看个硬核操作——

小米版“macOS Sequoia”桌面系统（狗头）。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

开机动画、用户登录、窗口管理、Dock栏缩放、Spotlight搜索、明暗显示风格、Launchpad启动台，一应俱全。

还内置了54个原生应用，打开计算器能算账，打开日历能看日期，打开地图能查地址，打开备忘录能记录，Grapher还能绘制3D函数图……拖拽旋转，挺有模有样。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

更离谱的是！还有一个能真正上网的Safari浏览器，好你个“Aqqle”（笑）。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

关键是这个系统由AI在4小时内全程无中断、无人干预，就这么一口气肝出来的。

没错，用的就是主打长程任务、模糊指令遵循，跻身国产Agent第一梯队的小米MiMo‑V2.5 Pro。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

小米最新发布的MiMo‑V2.5系列，包括Pro旗舰Agent、全模态基座、TTS语音合成、ASR语音识别四大模型，综合实力对标国际顶尖水准。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

就在今天凌晨，MiMo-V2.5系列模型 （包含base版） 已正式官宣开源，权重全面开放。

4个月，从入场到进入开源第一梯队，小米这位“超速”选手，值得深挖。

国际顶模的餐桌，它坐上了

先看成绩单。

首先，新一代模型在通用智能体能力、复杂软件工程与长程任务三大核心维度，相比前代MiMo-V2-Pro实现显著提升。

在国际竞技场上，在Coding Agent、SWE-Bench Pro、GDPVal-AA等多项权威基准测试中，成绩逼近Claude Opus 4.6、GPT-5.4等顶尖闭源模型，甚至大幅超越Gemini 3.1 Pro。

这样看来，MiMo‑V2.5-Pro不仅跻身国产开源第一梯队，而且已经和Claude Opus 4.6、GPT-5.4等国际顶模平起平坐。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

要说重点，小米这次升级，主要是长周期任务和模糊指令遵循能力。

官方数据显示，它可以稳定支撑超千次工具调用的长周期任务，自主完成人类专家数天甚至数周的高难度工作。

就拿北大SysY项目来说，从零写一个完整编译器这种级别的复杂工程，MiMo‑V2.5-Pro自己就能从头干到尾，词法分析、语法分析、中间代码生成、RISC-V后端、性能优化……全部包揽。

4.3小时、672次工具调用，任务中间不崩溃、不跑偏、不失忆，拿到233/233的满分。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

还有一件事必须提——Token效率。

在ClawEval标准Agent任务中，MiMo单轨迹只用约7万Token，就能达到64%的Pass³通过率。

而Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4，普遍在12-18万Token。

同样的能力，一样的效果，MiMo直接节省了40%-60%的成本。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

这“Token半功倍”实打实的省钱能力，真得点赞。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

不只代码强，小米模型的语音能力也齐全了。

V2.5家族里的TTS支持文本描述造音色、零样本克隆，不用上传参考音频，直接用文字描述就能生成想要的声线；

ASR达到中英SOTA，粤语、川语、吴语、闽南语都能识别，连带伴奏的歌词也能精准转写。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

而且，MiMo-V2.5-Pro和MiMo-V2.5都标配了1M上下文窗口，音频模型也大幅进化，从基座到TTS、ASR全栈升级，一个不落。

好好好，小米这波根本不是单点突破，而是直接端出了一整套Agent全家桶……

那它到底有多能跑？咱上实测！

实测，真不虚！

必须来扒一下开头那个macOS系统的代码层，毕竟效果确实行。

整个项目由React 18+TypeScript+Zustand+Tailwind CSS以及Vite构建，68个组件撑起了54个原生应用。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

XcodeApp里面塞了一个真实可浏览的网页引擎、包含完整国际象棋逻辑的小游戏，支持3D函数绘图的Grapher等等。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

窗口管理系统也不是简单的弹框，而是做了一套完整的窗口状态机：拖拽、缩放、最小化、最大化、焦点切换、z-index层级管理、还复刻了macOS标志性的Traffic Lights三色灯逻辑。

4个小时，MiMo-V2.5 Pro自己把这套架构搭起来、把54个应用一个个填满、把窗口管理的状态同步理顺。

全程无中断、无人干预，这编程能力确实不虚，真把人类程序员给解放了。

然后，我把模型接到了龙虾里，给了一个超长提示词，让它从零开发了一个3D像素风农场模拟游戏。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

什么3D场景搭建、像素风格美术、作物生长系统、天气循环、玩家交互逻辑……全都塞进去。

MiMo-V2.5 Pro一路干下来，从架构到核心玩法，工程量大环节多的农场给搞定了。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

最终交出来的版本质感很足。画面里是三种不同颜色划分的农场区域，外围还点缀着像素风花草；

商店里能买到胡萝卜、番茄、南瓜三种作物，游戏里不仅有晴雨交替的天气变化，还做了实时更新的金币计数和像素小人的体力条。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

那就开始种地吧！

进游戏第一件事，先锄地。扛着锄头走到空地上，DuangDuangDuang几下，一块耕地就出来了。

然后去商店买种子，番茄、小麦、胡萝卜……选完往兜里一揣，回到地里一颗颗种下去。

种完浇水，看着小苗苗冒头，作物成熟之后会有闪光效果，这时候就能收获了，收割完再去商店卖掉，金币叮叮当当到账了～

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

从场景装饰到核心玩法，一套完整闭环直接拉满，种地→浇水→收获→卖钱→再买种子→再种……好，循环起来停不下，赛博种地也太上头了！！

接下来，我用MiMo-V2.5做了一个山野风格治愈系自然漫游数字手账本。

和小游戏不一样，咱这次就给了一句大白话：

帮我做个山野风格的治愈系网站，像一本旅行手账，自然、安静、有呼吸感，那种逃离城市走进旷野的感觉。

没给配色、没给字体、没给布局、没给动效方案，啥都没给。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

这类任务考验的就是模糊指令理解了，山野到底是个啥感觉？治愈系配色要怎么搭？

MiMo-V2.5的理解是：大地色系、手写感字体、墨水质感、以及柔和的动画。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

于是，我就得到了一个细节拉满、内容丰富的手账。

山峦背景做视差，滚动的时候远近山层拉出纵深感，画面上还飘着小粒子。鼠标一挪，柔和光晕就跟过来了。

复选框点击还有弹跳动画，全文滚动的时候每个元素都是淡入淡出，氛围感满满。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

甚至最后的手账本还有交互功能，行囊里的装备可以标记选择，这个小设计属于意外之喜了。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

没告诉它具体用什么颜色、什么字体，它自己从山野这个词里读懂了我要的氛围，自行完成了交互、视觉和动效。

这种模糊指令遵循能力，最适合普通人上手，不用把提示词写成PRD（产品需求文档），大白话也能出好东西。

代码能力看完了，语音这块儿也得试试！

让MiMo-V2.5-TTS一个人撑起一台戏，分别生成了三种角色声音，年轻理性女生音、中年夜市老板音、吃货少年音，来场减肥辩论！

出来的效果嘛……各有各的味儿，毫不串戏～

最后试试ASR语音识别。

丢了一段粤语过去，转写结果基本准确，只有最后一句的“欢迎来到香港”的“来”听错了，不过无伤大雅，识别度达到99.999%。

只能说，小米这波语音能力补齐的姿势，属实优雅👍。

4个月，它拿出了真东西

效果看完了，最后聊聊这支团队。

小米AI团队这波节奏，确实有点超出预期，从去年年底V2系列进场，到现在V2.5冲到开源第一梯队，前后也就4个月时间。

在行业内，常规开发周期通常需要8到12个月，而小米硬是将这一时间压缩了一半。

速度惊人也就罢了，关键是产品线还非常齐整——旗舰级模型、全模态能力、全链路语音模型，一口气全部完成更新。

好家伙，“赶工期”竟然赶出了一套顶尖的全家桶，这还真是头一回见（doge）。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

当然，对于用户来说，虽然模型能力很重要，但性价比同样是我们在意的地方。

小米这次将全系模型升级至1M上下文窗口，却凭借极高的Token效率，反而简化了计费规则。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

1M和256K上下文采用相同的Credit倍率：Pro版从4x降至2x，标准版从2x降至1x。

再加上夜间时段（北京时间00:00~08:00）额外打8折，以及Token Plan用户的Credits全部重置，这套组合拳打下来，核心就两个字——

普惠。让普通用户和开发者都能以低成本体验高阶AI能力。

这不，海外开发者已经迅速被种草了。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

技术做得扎实，落地推广也必须跟上。小米显然深谙此道，于是在打折之外，又推出了MiMo Orbit开发者扶持计划。

该计划分为两部分：

一部分是百万亿Token创造者激励计划，面向AI开发者发放100万亿Token，完全免费。全球范围内的个人开发者、团队和企业均可申请参与。

而且小米方面会认真评估每一份申请，根据实际需求发放，确保Token能送到真正需要的人手里。

另一部分是面向全球新兴Agent框架，提供起步阶段的专项支持。

无论你的框架处于哪个阶段、用户规模多大，MiMo都愿意充当你的底层模型引擎。

不仅限免接入，还会提供底层适配技术的技术支持，帮你把用户体验门槛降到……几乎为零。

我看出来了，这是一场“手牵手我们一起走，创造幸福的生活～”的大动作（期待.jpg）。

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

放在当前这个时间节点来看，其实也不难理解——

国际上几家底蕴深厚的模型厂商已经将生态布局得相当稳固，开发者的使用习惯基本定型，后来者想要挤进去并不容易。国产模型想要站稳脚跟，速度、实力、诚意三者缺一不可。

小米的策略非常清晰：用更快的迭代抢时间，用更强的能力留住用户，用真金白银降低大家的尝试成本。

算不算“弯道超车”不好说，但至少态度和行动都很干脆。

至于最终能否站稳，虽然还是要看开发者的选择，但从这份答卷来看，小米这支AI团队是真的All in了。

下一个4个月，它会拿出什么新东西？我先蹲一波～

体验地址：https://aistudio.xiaomimimo.com/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/32490

小米AI 4小时手搓macOS！国产Agent MiMo-V2.5 Pro开源，长程任务吊打GPT-5.4

国际顶模的餐桌，它坐上了

实测，真不虚！

4个月，它拿出了真东西

相关推荐

蚂蚁灵波开源最强具身智能大脑LingBot-VLA：20000小时真实数据验证Scaling Law，实现“一个大脑，多个身体”

智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

WeatherNext 2：从确定性预报到多场景推演，AI如何重写气象预测底层逻辑

阿里云Operation Intelligence：大模型如何重塑AIOps，让运维从“人工救火”到“系统自愈”

AI预测世界杯：中国八大模型挑战章鱼保罗，开启全民AI预测新时代