OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在经历了一段时间的竞争压力后,OpenAI 推出了其最新旗舰模型 GPT-5.4。此次发布包括:
* ChatGPT 端:GPT-5.4 Thinking 与 GPT-5.4 Pro 全面上线。
* 开发者端:GPT-5.4 接入 API 与 Codex,并提供极速版本 GPT-5.4 fast。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王 OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

模型版本号直接跃升至 5.4,体现了这是一次在“推理”与“编程”能力上的融合式跨越。其在多项基准测试中表现突出:
* 在 GDPval 测试中胜率达到 83%,接近顶尖人类专家水平。
* 在 SWE-Bench Pro 编程基准和 FrontierMath 数学基准中均位列第一。
* 在 ARC-AGI-2 抽象推理测试中取得 83.3% 的新高成绩。

首个具备原生计算机使用能力的通用模型

GPT-5.4 是首个拥有原生计算机使用能力的通用模型。它能够识别用户界面(UI),模拟操控键盘和鼠标,在不同软件与网页间自如切换,执行复杂的多步骤计算机任务。

在 OSWorld-Verified 基准测试中,GPT-5.4 取得了 75% 的成功率,刷新了该领域的最高纪录(SOTA)。这一表现超越了上一代模型 GPT-5.2(47.3%)、人类平均水平(72.4%)以及近期登顶的 Claude Opus 4.6(72.7%)。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在能力整合方面,GPT-5.4 继承了 GPT-5.3-Codex 的全部编程能力,并新增了 100 万 token 的上下文长度和原生工具搜索功能,实现了推理、编程与计算机操控能力的全链路打通。GPT-5.4 Thinking 模式允许用户在模型思考过程中随时介入并调整方向,而不会打断其思路,从而在一次对话中完成复杂任务的交付。

精通知识工作,性能比肩专业人士

在知识工作领域,GPT-5.4 同样展现出强大实力。

在涵盖多个核心行业与职业的 GDPval 基准测试中,GPT-5.4 取得了 83.0% 的成绩,追平甚至超越了相关领域的专业人士,较上一代 GPT-5.2(70.9%)有显著提升。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在一项模拟初级投资银行分析师的电子表格建模测试中,GPT-5.4 平均得分达到 87.3%。此外,在生成演示文稿(PPT)的任务中,人类评估者更倾向于选择 GPT-5.4 的产出,认为其更具美感、视觉更丰富、图像使用更高效。

幻觉率显著降低

为了提升模型在实际工作中的可靠性,OpenAI 重点优化了 GPT-5.4 的事实准确性。在一组包含用户标记事实错误的提示词测试中,相较于 GPT-5.2,GPT-5.4 单独声明出错的概率降低了 33%,整个回复包含任何错误的概率降低了 18%。

推理与编程能力合二为一

GPT-5.4 的另一大亮点是完整集成了 GPT-5.3-Codex 的编程能力,用户无需在“智能模型”和“编程专用模型”之间切换。

在 SWE-Bench Pro 测试中,GPT-5.4 取得了 57.7% 的准确率,与 GPT-5.3-Codex(56.8%)表现相当。更重要的是,GPT-5.4 是目前 OpenAI Token 效率最高的推理模型,解决相同问题所需的 Token 数量大幅减少,从而降低了成本并提升了速度。在 Codex 的 /fast 模式下,其 Token 生成速度最高可提升 1.5 倍。

通过 API,开发者可以使用“优先处理”(Priority Processing)模式获得同样快速的响应。内部测试还显示,GPT-5.4 在生成复杂且功能完备的前端界面方面表现卓越。

视觉感知与文档解析能力增强

GPT-5.4 强大的执行能力建立在更强的通用视觉感知基础之上。

在 MMMU-Pro 测试中,GPT-5.4(未使用工具)的成功率达到 81.2%,优于 GPT-5.2(79.5%)。视觉感知的提升也直接转化为更强的文档解析能力,在 OmniDocBench 上,GPT-5.4 的平均误差(0.109)低于 GPT-5.2(0.140)。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

此外,GPT-5.4 首次引入了“原始”(original)和“高”(high)两种图像输入细节级别,支持更高保真度的图像理解,并在定位、理解和交互准确性方面均有大幅提升。

  • 主题公园模拟游戏仅凭一段提示词,GPT-5.4 就构建出一个完整的经营类游戏。这个自动运行的微观世界包含瓦片路网、设施建造、景观美化等完整要素,资金、客流、幸福感与评分系统环环相扣。Playwright 在此过程中充当了严苛的质检员,通过自动化测试对从疯狂扩建到设施拆除、从镜头导航到 UI 数据验证的各个环节进行高压验证,最终完成交付。
  • 战棋 RPG经过多轮迭代,GPT-5.4 打造出一款包含移动、行动、站位和遭遇战等完整系统的回合制网格战斗游戏。图像生成负责角色和美术风格,Playwright 则在每轮迭代中验证界面交互、检查并微调 UI 行为与着色器效果,直至战斗手感、视觉表现和整体体验全部调优到位。
  • 金门大桥飞行体验同样从一段提示词开始,GPT-5.4 生成了一个可自由飞行的超写实 3D 场景,具备逼真的光照、水面、雾气、悬索、车流、海岸线与城市背景,支持近距离穿越与远景俯瞰。Playwright 化身“王牌飞行员”,进行多角度全自动巡航测试,不仅验证渲染视口的稳定性,还通过截图反馈协助 AI 持续校准构图与光影分布,历经一小时高频迭代。

引入“工具搜索”,Token 使用量降低 47%

在工具使用能力上,GPT-5.4 实现了多层次的进化。

  • 工具搜索GPT-5.4 引入了“工具搜索”功能,有效解决了因 MCP 工具过多导致的上下文爆炸问题。模型仅需一个轻量级的可用工具列表,在真正需要特定工具时会自动查找其定义并即时加载。在 Scale 的 MCP Atlas 基准测试(包含 250 个任务,启用全部 36 个 MCP 服务器)中,该配置在保持相同准确率的同时,将总 Token 使用量减少了 47%OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

    这对于工具定义动辄消耗数万 Token 的 MCP 服务器而言,效率提升显著。

  • 智能体工具调用GPT-5.4 在推理过程中决定“何时”及“如何”使用工具时更加精准。在 Toolathlon 基准测试中,它以 54.6% 的准确率大幅领先于 GPT-5.3-Codex(51.9%)和 GPT-5.2(45.7%),且使用轮次更少。其智能体现在能够顺畅完成“阅读电子邮件→提取作业附件→上传附件→对作业评分→将结果记录到电子表格”等全套多步流程。OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

    Toolathlon:评估多步任务中现实世界工具和 API 的使用能力。

    在延迟敏感的场景(推理强度设为 None)下,GPT-5.4 在 τ²-bench 电信客服任务上也大幅领先。而在开启高推理强度(xhigh)的情况下,其在该基准上的准确率更是达到了 98.9%,接近完美。

    OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

网络搜索能力暴涨 17%,Pro 版刷新纪录

GPT-5.4 的智能体网络搜索能力也迎来了大幅升级。在 BrowseComp 测试中,此前领先的 Claude Opus 4.6 成绩为 84.0%,远超 GPT-5.2 Pro 的 77.9%。而 GPT-5.4 Pro 直接以 89.3% 的成绩实现反超,其标准版的 82.7% 也与 Opus 4.6 十分接近。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在实际应用中,这意味着 GPT-5.4 Thinking 更擅长回答需要从网络多源头整合信息的问题。它能进行更持久的多轮搜索以筛选最相关来源,尤其擅长处理“大海捞针”式查询,并将信息综合成条理清晰、推理严密的答案。同时,它在处理需要长时间思考的复杂问题时,能更好地保持上下文记忆。

思考过程可中途调整,告别推倒重来

GPT-5.4 Thinking 在思考过程中允许用户随时介入,而不会打断其思路。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

此功能现已在网页和 Android 应用上线,iOS 版即将推出。

针对复杂冗长的查询,模型会在回复前通过一段前言来梳理工作计划。关键在于,用户可以在其运行中途直接调整方向或补充说明,无需等待全部完成后再推倒重来。这使得一次对话就能获得理想结果,省去了多轮沟通的成本。同时,模型在处理困难任务时能进行更深入的思考,并对对话历史步骤保持更强的感知。

OpenAI 重回王座,AI 格局生变

GPT-5.4 的发布,是 OpenAI 对 Gemini 3.1 Pro 和 Claude Opus 4.6 的一次全面回应。其强大之处在于 没有明显短板,在推理、编程、视觉、工具使用、计算机操作、网络搜索、知识工作等每一条战线上都达到了顶尖水平。这不仅是单点突破,更是全维度的领先。OpenAI 通过 GPT-5.4 再次证明,在通往 AGI 的道路上,它依然是最不可忽视的参与者。

详细性能:全维度领先

最后,附上 GPT-5.4 的综合性能成绩单。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

上下滑动查看

参考资料:
* https://x.com/OpenAI/status/2029620619743219811?s=20
* https://developers.openai.com/api/docs/models/gpt-5.4
* https://openai.com/index/introducing-gpt-5-4/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24486

(0)
上一篇 2026年3月6日 上午10:09
下一篇 2026年3月6日 上午10:42

相关推荐

  • 昇腾硬件赋能:openPangu-Ultra-MoE-718B-V1.1推理体系的技术突破与产业影响

    随着2025年接近尾声,大模型技术正经历从单点提效工具向业务系统底层基础设施的深刻转型。在这一关键进程中,推理效率已成为决定大模型能否真正实现商业落地的核心变量。特别是对于超大规模混合专家(MoE)模型而言,推理环节面临的挑战已从单纯的计算能力扩展,演变为涉及计算、通信、访存、并行策略等多维度的系统性优化问题。华为近期发布的openPangu-Ultra-M…

    2025年11月28日
    36500
  • 阿里开源Zvec:向量数据库迎来轻量级革命,AI应用开发进入新纪元

    阿里开源了向量数据库 Zvec。 对于不熟悉向量数据库的读者,简单来说,它专门用于存储和检索向量数据,常见于相似性搜索、推荐系统、AI应用等场景。 和传统需要独立部署的向量数据库不同,Zvec 直接运行在应用程序进程内部。这意味着不需要额外服务器,没有配置负担,也省去了基础设施成本。 Zvec 基于阿里巴巴内部长期使用的 Proxima 向量搜索引擎构建。官…

    2026年2月23日
    97300
  • 阿里千问突破大模型强化学习稳定性难题:从序列级奖励到token级优化的理论重构与实践验证

    在人工智能领域,大语言模型(LLM)的强化学习(RL)训练已成为提升模型复杂推理与问题解决能力的关键技术路径。然而,当前主流RL方法普遍面临一个根本性矛盾:奖励信号通常基于完整生成序列(序列级)进行评估,而优化过程却在单个token级别进行。这种“奖励-优化”层级的不匹配不仅引发了理论上的健全性质疑,更在实际训练中导致稳定性问题,特别是在混合专家(MoE)等…

    2025年12月7日
    44000
  • 【重磅爆料】AI 圈又要热闹了!多款大模型即将扎堆上线

    Claude 4.5与Gemini 3即将发布,但焦点在DeepSeek。其V3.2版本疑似官方预热,而十月将至的V4版本则被曝将实现1M上下文长度、GRPO Turbo多步思考及更高推理效率等重大升级。

    2025年10月1日
    71301
  • 从代码补全到任务委托:AI编程助手的技术演进与豆包编程模型的实战突破

    在人工智能技术快速迭代的浪潮中,AI编程助手已成为开发者工作流中不可或缺的组成部分。从最初的简单代码补全到如今能够处理复杂工程任务的智能体,这一领域正经历着深刻的技术范式转移。本文将从技术演进、市场痛点、模型能力三个维度,深入分析当前AI编程助手的发展现状,并以火山引擎豆包编程模型(Doubao-Seed-Code)为案例,探讨其在真实工程场景中的表现与突破…

    2025年11月11日
    41900