GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

GPT-5.4 mini 发布即遭质疑:性能仅排第13,价格却涨三倍

OpenAI 最新推出的 GPT-5.4 mini 模型,在发布首日便面临诸多质疑。

根据公开的大语言模型评测基准 Vals 数据显示,新发布的 GPT-5.4 mini 仅排名第 13 位,其性能优于 OpenAI 半年前 发布的 GPT-5。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

值得注意的是,排名第 12 位的是于一月底发布的 Kimi 2.5 模型。相比之下,Kimi 2.5 的价格比新的 5.4 mini 便宜一倍多,且响应延迟更低。

在同步进行的拓扑证明测试中,新推出的 mini 和 nano 模型在全球范围内的表现也只能说是中规中矩,分别排名第九和第十,不及早前发布的 Kimi、Qwen、DeepSeek 等模型。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

有评论指出,此次 GPT-5.4 mini 的基准测试对比对象是运行速度快两倍的老版 GPT-5 mini(即大半年前的版本),而非其他厂商的最新模型。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

不少用户甚至直言,更换为新的 GPT-5.4 mini “似乎并无必要”。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

尽管 OpenAI 官方博客表示,在输出 tokens 方面,性能相近的 mini 版本比 GPT-5.4 便宜三倍,nano 版本则便宜近十二倍。

但若将 GPT-5.4 mini 与旧版 GPT-5 mini 对比,则会发现同属 mini 档位的模型,价格却上涨了约三倍。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

可以说,在当前大模型的热潮中,全球厂商普遍存在涨价趋势,OpenAI 首席执行官萨姆·奥特曼显然也未能例外。

那么,这是否意味着 OpenAI 仅仅是推出了一款专门针对编程和智能体任务优化过的小型模型?

新版 mini 和 nano 模型

今日,OpenAI 推出了主打快速与经济性的 GPT-5.4 mininano 模型,宣称专门针对 编程计算机操作多模态理解 以及 子智能体(subagent) 任务进行了优化。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

与前代 GPT-5 mini 相比,新版 mini 和 nano 在性能上有所提升,同时 运行速度提升超过两倍

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

值得注意的是,在多项评测中,mini/nano 模型与完整版 GPT-5.4 的性能差距已经不大,基本与谷歌、Anthropic 的轻量级模型处于同一水平。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

根据 OpenAI 官方博客,新模型主要聚焦于编程和子智能体任务。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

其中,GPT-5.4 mini 在编程、推理、多模态理解和工具使用方面进行了优化,运行速度提升超过两倍,在 SWE-Bench Pro 和 OSWorld-Verified 等评测中的表现接近完整版 GPT-5.4。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

GPT-5.4 nano 则是 GPT-5.4 系列中体积最小、最经济的版本,适用于对速度和成本敏感的任务,例如分类、数据提取、排序以及处理相对简单的辅助编程任务。

总体而言,这两个新模型适合那些延迟直接影响产品体验的工作负载,例如代码助手、子智能体、屏幕截图解析和多模态应用。

简而言之,对于已经抽象出特定技能的智能体(如某些自动化流程),部署在反应快速、能力够用的小模型上更具成本效益。

具体使用方式上,GPT-5.4 mini 可通过 API、Codex 和 ChatGPT 调用,而 nano 版本目前仅能通过 API 使用。

价格方面,mini 版本每百万输入 tokens 收费 0.75 美元,每百万输出 tokens 收费 4.5 美元。Nano 版本在 API 中的费用更低,每百万输入/输出 tokens 分别收费 0.2 美元和 1.25 美元。

不过,横向对比来看,有网友指出,Gemini Flash 3 lite 模型表现更智能,且总体成本便宜六倍多。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

评测结果

在实际评测中,mini 和 nano 模型主要针对编程和智能体任务进行了优化。

在编程任务中,它们能够以低延迟完成代码修改、调试循环和库导航,实现快速迭代,高效处理需要兼顾速度与成本的工作流程。Mini 版本的任务通过率接近 GPT-5.4,同时速度更快。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

在子智能体场景中,开发者可以让大型模型负责决策与规划,同时将较小的任务并行委派给 mini 子智能体执行,例如搜索代码库、处理文档或辅助操作。随着小型模型速度越来越快,这种模式的价值日益凸显。

在计算机操作和多模态任务中,mini 同样表现不俗,能够快速解析复杂的用户界面截图,高效完成操作指令。在 OSWorld-Verified 测试中,其表现几乎接近完整版 GPT-5.4,同时明显优于 GPT-5 mini。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

一些网友的实际测试也印证了上述亮点。

Reddit 网友 Rent_South 系统地测试了新版 mini 在分类、总结、翻译等任务上的表现,并给出了积极评价:

我运行了一些基准测试,结果发现——在一些真实场景任务中,它们更便宜、更快,也更好用。
自从大约一年前,我在构建一个 RAG 流水线时,gpt-4.1-mini 在某些代理任务步骤上打败了 GPT-4 原版之后,我对 mini/nano 版本的热情就比对原版还高。

在分类任务中,nano 准确率达到 70%,成本比 GPT-5.4 降低十二倍。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

当调用次数超过一万次时,使用 GPT-5.4 大约花费 20.30 美元,而使用 GPT-5.4-nano 仅需 1.64 美元,节省幅度约 91.9%。

在翻译任务上,nano 得分略低,为 55 分,但与 GPT-5.4 的 63 分差距不大,仍可作为替代选择。在超万次调用后,节省幅度仍达到了 91.3%。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

在写作任务中,mini 版本得分最高,成本比完整版低约六成。在超过 1 万次调用时,mini 花费 29.61 美元,nano 仅花费 10.30 美元。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

此外,还有网友测试了模型描述图片的能力。nano 在描述博物馆照片时,输出详细准确,使用的 token 极少,总成本甚至不到一美分。

例如,该网友让 nano 模型描述一张随手拍摄的博物馆照片:

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

nano 模型输出了以下描述:

图片显示了一间博物馆展厅的内部,有一面长长的展墙。白色砖墙上整齐排列着许多装框肖像画。肖像画下方是多个玻璃展示柜,木框深色,顶部/前方为玻璃,展示柜内摆放着各种历史文物和设备。房间铺设了抛光木地板,吊顶上有悬挂灯具及电线,墙顶附近可见少量管道。前景中,沿房间长度排列的玻璃柜映出了其他展区的物品。

生成这段描述共使用了 2751 个输入 tokens 和 112 个输出 tokens,费用为 0.069 美分(不到一美分的十分之一)。

即便在创意任务上,例如生成“鹈鹕骑自行车”的 SVG 图片,nano 和 mini 与完整版 GPT-5.4 仍有一定差距,但它们完成基础的创作任务完全可行。至少随着推理强度的提升,生成的画面能保持相对的正确性。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

整体来看,此次新模型与 OpenAI 自家产品相比,确有可圈可点之处。

但这是否就是市面上最好、最经济的小模型,仍有待商榷。

另一个现象

有趣的是,在 OpenAI 总裁格雷格·布罗克曼发布新模型的推文评论区,最热烈的讨论并非关于新模型的能力或价格,甚至几乎与新模型本身无关。

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

评论区几乎被带有 #keep4o 标签的留言刷屏:“让 4o 回来!”

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍
GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍
GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

参考链接:
[1] https://x.com/gdb/status/2034003374627049909
[2] https://simonwillison.net/2026/Mar/17/mini-and-nano/
[3] https://www.reddit.com/r/OpenAI/comments/1rwd9hd/breaking_openai_just_dropped_gpt54_mini_and_nano/
[4] https://x.com/scaling01/status/2033958931874099560

欢迎在评论区留下你的想法!

GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26359

(0)
上一篇 2小时前
下一篇 1小时前

相关推荐

  • 开源欧拉发布全球首个超节点操作系统:开启AI时代操作系统新纪元

    在人工智能浪潮席卷全球的当下,操作系统作为连接硬件与应用的核心基石,正迎来前所未有的变革机遇。2025年,以“智跃无界,开源致远”为主题的操作系统大会在北京中关村国际创新中心成功举办,标志着开源欧拉(openEuler)社区正式迈入面向超节点和AI时代的新发展阶段。 开源欧拉社区自成立以来,在开放原子开源基金会的运营孵化下,已发展成为全球最活跃的开源操作系统…

    2025年11月15日
    17600
  • PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

    现阶段,互联网上的公开文本数据已被大模型消耗殆尽,高质量文本数据趋于枯竭,AI 的发展面临瓶颈。 要进一步迭代优化,就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识,却因物理形态的阻隔,难以被 AI 有效利用。 因此,未来的 OCR 文字识别技术,或将成为向 AI 输送高质量「数据燃料…

    2026年1月30日
    13900
  • 从《杰森一家》到现实:个人飞行器技术演进与商业化挑战深度解析

    几十年来,人类对个人飞行器的幻想从未停止。从20世纪60年代动画片《杰森一家》中描绘的垂直起降飞行器,到如今Jetson ONE等产品的问世,这一领域正经历从科幻到现实的艰难跨越。本文将从技术原理、市场现状、法规挑战及未来展望四个维度,深入剖析个人飞行器的发展现状与瓶颈。 **技术架构:电动垂直起降(eVTOL)的突破与局限** Jetson ONE作为当前…

    2025年11月1日
    22000
  • VinciCoder:视觉强化学习突破多模态代码生成瓶颈,开启统一框架新纪元

    长期以来,多模态代码生成领域的发展始终受限于传统监督微调(SFT)范式的固有缺陷。尽管SFT在Chart-to-code等特定任务上取得了显著成果,但其“狭隘的训练范围”从根本上制约了模型的泛化能力,阻碍了通用视觉代码智能的演进。更为关键的是,纯SFT范式在确保代码可执行性和高视觉保真度方面存在结构性瓶颈——模型在训练过程中完全无法感知代码的渲染效果,导致“…

    2025年11月17日
    16900
  • 多模态记忆革命:MemVerse如何重塑智能体的认知架构

    在人工智能向通用智能体演进的关键阶段,记忆系统正面临从文本堆叠到多模态融通的范式跃迁。传统基于纯文本的记忆库已无法满足智能体与高维世界交互的需求——一张产品设计图、一段用户操作录屏、一次包含语音和演示的线上会议,这些由图像、声音、视频构成的业务信息,正成为驱动AI创造价值的关键来源。智能体的记忆不应是扁平的文本日志,而应是一个能记录并关联“在何时、看到了何物…

    2025年12月16日
    21500