OpenAI 在毫无预热的情况下,正式推出了 GPT-5.4 mini 和 GPT-5.4 nano。这两款模型旨在解决生产环境中对 AI 能力、速度与成本的核心诉求,继承了 GPT-5.4 的优势,在轻量级模型中达到了新的高度。

最引人注目的性能数据如下:
* 编码能力(SWE-Bench Pro):GPT-5.4 mini 取得了 54.4% 的成绩,与 GPT-5.4 的 57.7% 非常接近。
* 计算机使用(OSWorld-Verified):GPT-5.4 mini 达到 72.1%,媲美 GPT-5.4 的 75%。
* 在推理、工具调用等任务中,mini 版的表现也逼近旗舰版。
相较于前代 GPT-5 mini,GPT-5.4 mini 的运行速度提升了 2 倍。

价格方面:
* GPT-5.4 mini 支持 400K 上下文,输入价格为 0.75 美元/百万 token,输出价格为 4.5 美元/百万 token。
* GPT-5.4 nano 的输入价格为 0.2 美元/百万 token,输出价格为 1.25 美元/百万 token。
* 相较于 GPT-5.4,mini 的输出价格约为其 1/3,nano 的价格更是低至 1/12。



这意味着“快速、强大、经济”三者如今可以兼得。


有用户试用后表示,其速度不仅快,且成本显著低于同类竞品。

代码能力:mini 逼近旗舰,nano 超越前代
在衡量真实编码能力的硬核基准 SWE-Bench Pro 上,GPT-5.4 mini 的 54.4% 与 GPT-5.4 的 57.7% 仅差 3.3%。这标志着轻量模型在解决实际工程问题上已触及旗舰模型的天花板。

相比上一代 GPT-5 mini(45.7%),GPT-5.4 mini 实现了近 9% 的飞跃。在 Terminal-Bench 2.0 上,GPT-5.4 mini(60.0%)相比 GPT-5 mini(38.2%)提升幅度超过 57%。

即便是定位更轻量的 nano 版本,在 SWE-Bench Pro 上也取得了 52.4% 的成绩,反超了上一代的 mini 模型。
推理与复杂工具调用表现突出
在博士级科学推理基准 GPQA Diamond 上,GPT-5.4 mini 取得了 88% 的成绩,与 GPT-5.4 相差 5%。
在测试复杂工具链使用能力的 Toolathlon 基准上,GPT-5.4 mini 得分 42.9%,显著优于 GPT-5 mini 的 26.9%。

在电信行业基准 τ2-bench 上,mini 取得 93.4% 的高分,几乎追平旗舰版的 98.9%。在工具调用基准 MCP Atlas 上,GPT-5.4 mini(57.7%)也领先于 GPT-5 mini(47.6%)。这些数据表明,GPT-5.4 mini 已具备在生产环境中独立执行复杂任务链的能力。
计算机使用:小模型也能“看屏操作”
GPT-5.4 mini 在计算机使用(OSWorld-Verified)上的表现令人意外,其 72.1% 的成绩与 GPT-5.4 的 75.0% 差距微小。这项测试评估模型解析屏幕信息并做出正确操作的综合能力,对于构建 AI 智能体(Agent)至关重要。

相比之下,GPT-5 mini 在该项得分仅为 42.0%,nano 版本得分为 39.0%。这表明复杂的视觉推理任务存在能力门槛。在需要结合视觉与代码工具进行推理的 MMMUPro 基准上,mini 版(78.0%)与旗舰版(81.5%)的差距同样很小。

这为构建低成本、快响应的实时计算机使用 Agent 提供了理想的引擎。OpenAI 的愿景是开发一个超越编程、能够“控制计算机”的强大工具,最终实现能跨终端无缝执行任务的个人专属 AI。
子智能体范式:大模型决策,小模型执行
OpenAI 在此次发布中强调了一个架构理念:最优的 AI 系统未必需要最大模型处理一切。他们提出,可以由旗舰模型 GPT-5.4 负责整体规划与决策,然后将具体的执行任务分发给 GPT-5.4 mini 等子智能体并行处理。

例如,搜索代码库、审查文件等需要快速完成但无需深度思考的任务,可以交由 mini 处理。在开发平台中,这种架构已实现:GPT-5.4 制定方案,并调度 mini 执行子任务,而 mini 任务仅消耗 GPT-5.4 配额的 30%。


这种“分层调度”思路正成为行业共识。对于开发者而言,架构设计应从“选择最强模型处理所有任务”转向“根据任务复杂度,动态分配至不同层级的模型”。
Hebbia的CTO Aabhas Sharma的评价具有代表性:
GPT-5.4 mini在多项输出任务和引用召回率上,以显著更低的成本达到甚至超越了竞品模型,并实现了比更大模型更高的端到端通过率。
“更小的模型,更好的效果”——这在两年前如同天方夜谭,如今已成为工程实践中的现实。
全面铺开,免费用户也能用
GPT-5.4 mini现已全线上线,在API、Codex和ChatGPT三端同步开放。
其API定价为输入每百万Token 0.75美元,输出每百万Token 4.50美元,上下文窗口为400K。该模型支持文本与图像输入、工具使用、函数调用、网络搜索、文件搜索、计算机使用等全套能力。

GPT-5.4 nano目前仅在API中提供,定价为输入每百万Token 0.20美元,输出每百万Token 1.25美元。作为对比,nano的输入价格约为mini的四分之一,输出价格不到mini的三分之一。对于分类、数据提取、排序等高频率、低复杂度的任务而言,nano具备极高的性价比。
在ChatGPT端,GPT-5.4 mini已向免费用户和Go用户开放,可通过菜单中的“Thinking”功能使用。对于付费用户,当GPT-5.4 Thinking的额度耗尽时,系统会自动将mini作为降级备选方案。
这一策略颇为巧妙:既让免费用户得以体验强大的推理能力,降低了使用门槛并扩大了用户基础;同时,mini的存在也极大地缓解了付费用户的“额度焦虑”。
长上下文是mini的短板
当然,GPT-5.4 mini并非没有弱点。在长上下文处理方面,它与旗舰版之间的差距比其他维度更为明显。
在OpenAI MRCR v2测试中,针对64K-128K窗口下的8针搜索任务,GPT-5.4旗舰版取得了86.0%的成绩,而mini仅为47.7%,差距接近40个百分点。在128K-256K窗口下,这一差距进一步拉大至79.3%对33.6%。

Graphwalks系列测试也呈现类似趋势。在父节点追踪任务上,GPT-5.4旗舰版得分为89.8%,mini为71.5%。
这表明,在需要对超长文本进行精确信息检索和复杂逻辑追踪的场景下,mini的能力上限仍显著低于旗舰版。对于需要进行大规模文档分析、长对话记忆保持等任务的开发者而言,GPT-5.4旗舰版目前仍是不可替代的选择。
不过,这也恰好印证了OpenAI的产品分层逻辑:不同的任务,适配不同的模型。mini无需在所有维度上都追平旗舰版,它只需在其主攻的方向——速度、编码、工具调用与计算机使用——做到足够出色即可。
不是结局,是起点
技术正在狂奔,但人们的情绪则更为复杂。
今早,OpenAI首席执行官萨姆·奥特曼在社交平台X上发文:
“我对那些逐字逐句写出极其复杂软件的人,充满感激。现在已经很难想象那曾经需要多大的努力了。谢谢你们把我们带到了今天。”

评论区瞬间被引爆。许多开发者从中读出了另一层含义——感谢你们的贡献,但这类工作未来将由AI接手。

有人尖锐回应:“谢谢啊,原来我们的回报就是丢掉工作。”

也有人直接指向训练数据争议:“模型本身就是用这些开发者的代码喂养出来的,现在反过来替代他们,这算哪门子感激?”

不过,也有人借此提出了一个值得深思的问题:当语法层面的编码工作被AI解决,软件工程的核心竞争力是否会从“怎么写代码”转向“怎么设计系统”?

争议归争议,趋势不会因情绪而止步。回顾科技史,从大型机到个人电脑,从拨号上网到移动互联网,每一次真正的技术革命,都不是依靠最强大、最昂贵的产品完成的。革命完成的标志,是技术变得像水和电一样——廉价、无感、无处不在。
GPT-5.4 mini在SWE-Bench Pro上达到了旗舰版94%的性能,在OSWorld上达到96%,在GPQA Diamond上达到95%。其速度是前代的两倍,成本却仅为旗舰版的零头。
- 对普通开发者而言,这意味着曾经只有大型企业才能负担的AI能力,如今以mini的价格即可接入。
- 对AI应用创业者而言,这意味着产品的推理成本有望再降低一个数量级。
- 对整个行业而言,这意味着AI的渗透速度将进一步加快,因为横亘在前的成本与延迟两堵高墙,正被小模型一砖一瓦地拆除。
大模型负责思考与规划,小模型负责高效执行。旗舰模型定义智能的上限,小模型则打通AI渗入每一个应用的毛细血管。这不再是一个愿景,而是当下即可运行的架构。
参考资料:
* https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
* https://x.com/OpenAI/status/2033953592424731072
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26246


