OpenAI深夜突袭！GPT-5.4震撼发布：原生电脑操控能力碾压人类，推理编程全维度封王

在经历了一段时间的竞争压力后，OpenAI 推出了其最新旗舰模型 GPT-5.4。此次发布包括：
* ChatGPT 端：GPT-5.4 Thinking 与 GPT-5.4 Pro 全面上线。
* 开发者端：GPT-5.4 接入 API 与 Codex，并提供极速版本 GPT-5.4 fast。

模型版本号直接跃升至 5.4，体现了这是一次在“推理”与“编程”能力上的融合式跨越。其在多项基准测试中表现突出：
* 在 GDPval 测试中胜率达到 83%，接近顶尖人类专家水平。
* 在 SWE-Bench Pro 编程基准和 FrontierMath 数学基准中均位列第一。
* 在 ARC-AGI-2 抽象推理测试中取得 83.3% 的新高成绩。

首个具备原生计算机使用能力的通用模型

GPT-5.4 是首个拥有原生计算机使用能力的通用模型。它能够识别用户界面（UI），模拟操控键盘和鼠标，在不同软件与网页间自如切换，执行复杂的多步骤计算机任务。

在 OSWorld-Verified 基准测试中，GPT-5.4 取得了 75% 的成功率，刷新了该领域的最高纪录（SOTA）。这一表现超越了上一代模型 GPT-5.2（47.3%）、人类平均水平（72.4%）以及近期登顶的 Claude Opus 4.6（72.7%）。

在能力整合方面，GPT-5.4 继承了 GPT-5.3-Codex 的全部编程能力，并新增了 100 万 token 的上下文长度和原生工具搜索功能，实现了推理、编程与计算机操控能力的全链路打通。GPT-5.4 Thinking 模式允许用户在模型思考过程中随时介入并调整方向，而不会打断其思路，从而在一次对话中完成复杂任务的交付。

精通知识工作，性能比肩专业人士

在知识工作领域，GPT-5.4 同样展现出强大实力。

在涵盖多个核心行业与职业的 GDPval 基准测试中，GPT-5.4 取得了 83.0% 的成绩，追平甚至超越了相关领域的专业人士，较上一代 GPT-5.2（70.9%）有显著提升。

在一项模拟初级投资银行分析师的电子表格建模测试中，GPT-5.4 平均得分达到 87.3%。此外，在生成演示文稿（PPT）的任务中，人类评估者更倾向于选择 GPT-5.4 的产出，认为其更具美感、视觉更丰富、图像使用更高效。

幻觉率显著降低

为了提升模型在实际工作中的可靠性，OpenAI 重点优化了 GPT-5.4 的事实准确性。在一组包含用户标记事实错误的提示词测试中，相较于 GPT-5.2，GPT-5.4 单独声明出错的概率降低了 33%，整个回复包含任何错误的概率降低了 18%。

推理与编程能力合二为一

GPT-5.4 的另一大亮点是完整集成了 GPT-5.3-Codex 的编程能力，用户无需在“智能模型”和“编程专用模型”之间切换。

在 SWE-Bench Pro 测试中，GPT-5.4 取得了 57.7% 的准确率，与 GPT-5.3-Codex（56.8%）表现相当。更重要的是，GPT-5.4 是目前 OpenAI Token 效率最高的推理模型，解决相同问题所需的 Token 数量大幅减少，从而降低了成本并提升了速度。在 Codex 的 /fast 模式下，其 Token 生成速度最高可提升 1.5 倍。

通过 API，开发者可以使用“优先处理”（Priority Processing）模式获得同样快速的响应。内部测试还显示，GPT-5.4 在生成复杂且功能完备的前端界面方面表现卓越。

视觉感知与文档解析能力增强

GPT-5.4 强大的执行能力建立在更强的通用视觉感知基础之上。

在 MMMU-Pro 测试中，GPT-5.4（未使用工具）的成功率达到 81.2%，优于 GPT-5.2（79.5%）。视觉感知的提升也直接转化为更强的文档解析能力，在 OmniDocBench 上，GPT-5.4 的平均误差（0.109）低于 GPT-5.2（0.140）。

此外，GPT-5.4 首次引入了“原始”（original）和“高”（high）两种图像输入细节级别，支持更高保真度的图像理解，并在定位、理解和交互准确性方面均有大幅提升。

主题公园模拟游戏仅凭一段提示词，GPT-5.4 就构建出一个完整的经营类游戏。这个自动运行的微观世界包含瓦片路网、设施建造、景观美化等完整要素，资金、客流、幸福感与评分系统环环相扣。Playwright 在此过程中充当了严苛的质检员，通过自动化测试对从疯狂扩建到设施拆除、从镜头导航到 UI 数据验证的各个环节进行高压验证，最终完成交付。
战棋 RPG经过多轮迭代，GPT-5.4 打造出一款包含移动、行动、站位和遭遇战等完整系统的回合制网格战斗游戏。图像生成负责角色和美术风格，Playwright 则在每轮迭代中验证界面交互、检查并微调 UI 行为与着色器效果，直至战斗手感、视觉表现和整体体验全部调优到位。
金门大桥飞行体验同样从一段提示词开始，GPT-5.4 生成了一个可自由飞行的超写实 3D 场景，具备逼真的光照、水面、雾气、悬索、车流、海岸线与城市背景，支持近距离穿越与远景俯瞰。Playwright 化身“王牌飞行员”，进行多角度全自动巡航测试，不仅验证渲染视口的稳定性，还通过截图反馈协助 AI 持续校准构图与光影分布，历经一小时高频迭代。

引入“工具搜索”，Token 使用量降低 47%

在工具使用能力上，GPT-5.4 实现了多层次的进化。

工具搜索GPT-5.4 引入了“工具搜索”功能，有效解决了因 MCP 工具过多导致的上下文爆炸问题。模型仅需一个轻量级的可用工具列表，在真正需要特定工具时会自动查找其定义并即时加载。在 Scale 的 MCP Atlas 基准测试（包含 250 个任务，启用全部 36 个 MCP 服务器）中，该配置在保持相同准确率的同时，将总 Token 使用量减少了 47%。
这对于工具定义动辄消耗数万 Token 的 MCP 服务器而言，效率提升显著。
智能体工具调用GPT-5.4 在推理过程中决定“何时”及“如何”使用工具时更加精准。在 Toolathlon 基准测试中，它以 54.6% 的准确率大幅领先于 GPT-5.3-Codex（51.9%）和 GPT-5.2（45.7%），且使用轮次更少。其智能体现在能够顺畅完成“阅读电子邮件→提取作业附件→上传附件→对作业评分→将结果记录到电子表格”等全套多步流程。
Toolathlon：评估多步任务中现实世界工具和 API 的使用能力。

在延迟敏感的场景（推理强度设为 None）下，GPT-5.4 在 τ²-bench 电信客服任务上也大幅领先。而在开启高推理强度（xhigh）的情况下，其在该基准上的准确率更是达到了 98.9%，接近完美。

网络搜索能力暴涨 17%，Pro 版刷新纪录

GPT-5.4 的智能体网络搜索能力也迎来了大幅升级。在 BrowseComp 测试中，此前领先的 Claude Opus 4.6 成绩为 84.0%，远超 GPT-5.2 Pro 的 77.9%。而 GPT-5.4 Pro 直接以 89.3% 的成绩实现反超，其标准版的 82.7% 也与 Opus 4.6 十分接近。

在实际应用中，这意味着 GPT-5.4 Thinking 更擅长回答需要从网络多源头整合信息的问题。它能进行更持久的多轮搜索以筛选最相关来源，尤其擅长处理“大海捞针”式查询，并将信息综合成条理清晰、推理严密的答案。同时，它在处理需要长时间思考的复杂问题时，能更好地保持上下文记忆。

思考过程可中途调整，告别推倒重来

GPT-5.4 Thinking 在思考过程中允许用户随时介入，而不会打断其思路。

此功能现已在网页和 Android 应用上线，iOS 版即将推出。

针对复杂冗长的查询，模型会在回复前通过一段前言来梳理工作计划。关键在于，用户可以在其运行中途直接调整方向或补充说明，无需等待全部完成后再推倒重来。这使得一次对话就能获得理想结果，省去了多轮沟通的成本。同时，模型在处理困难任务时能进行更深入的思考，并对对话历史步骤保持更强的感知。

OpenAI 重回王座，AI 格局生变

GPT-5.4 的发布，是 OpenAI 对 Gemini 3.1 Pro 和 Claude Opus 4.6 的一次全面回应。其强大之处在于 没有明显短板，在推理、编程、视觉、工具使用、计算机操作、网络搜索、知识工作等每一条战线上都达到了顶尖水平。这不仅是单点突破，更是全维度的领先。OpenAI 通过 GPT-5.4 再次证明，在通往 AGI 的道路上，它依然是最不可忽视的参与者。

详细性能：全维度领先

最后，附上 GPT-5.4 的综合性能成绩单。

上下滑动查看

参考资料：
* https://x.com/OpenAI/status/2029620619743219811?s=20
* https://developers.openai.com/api/docs/models/gpt-5.4
* https://openai.com/index/introducing-gpt-5-4/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/24486

OpenAI深夜突袭！GPT-5.4震撼发布：原生电脑操控能力碾压人类，推理编程全维度封王

<img decoding="async" alt="OpenAI深夜突袭！GPT-5.4震撼发布：原生电脑操控能力碾压人类，推理编程全维度封王" src="https://www.itsolotime.com/wp-content/uploads/2026/03/image-792.jpg" />

首个具备原生计算机使用能力的通用模型

精通知识工作，性能比肩专业人士

幻觉率显著降低

推理与编程能力合二为一

视觉感知与文档解析能力增强

引入“工具搜索”，Token 使用量降低 47%

网络搜索能力暴涨 17%，Pro 版刷新纪录

思考过程可中途调整，告别推倒重来

OpenAI 重回王座，AI 格局生变

详细性能：全维度领先

相关推荐

AI过度使用引发“烧脑”危机：哈佛研究揭示认知过载与工作压力剧增

情感AI的黎明：从理性计算到共情理解的范式转移

LLM重构数据准备：从规则驱动到语义驱动的范式革命

DeepSeek寻求百亿融资！V4万亿参数+华为昇腾加持，AI圈炸锅

中国大模型周调用量飙升至4.19万亿Token，再度登顶全球榜首