OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在经历了一段时间的竞争压力后,OpenAI 推出了其最新旗舰模型 GPT-5.4。此次发布包括:
* ChatGPT 端:GPT-5.4 Thinking 与 GPT-5.4 Pro 全面上线。
* 开发者端:GPT-5.4 接入 API 与 Codex,并提供极速版本 GPT-5.4 fast。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王 OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

模型版本号直接跃升至 5.4,体现了这是一次在“推理”与“编程”能力上的融合式跨越。其在多项基准测试中表现突出:
* 在 GDPval 测试中胜率达到 83%,接近顶尖人类专家水平。
* 在 SWE-Bench Pro 编程基准和 FrontierMath 数学基准中均位列第一。
* 在 ARC-AGI-2 抽象推理测试中取得 83.3% 的新高成绩。

首个具备原生计算机使用能力的通用模型

GPT-5.4 是首个拥有原生计算机使用能力的通用模型。它能够识别用户界面(UI),模拟操控键盘和鼠标,在不同软件与网页间自如切换,执行复杂的多步骤计算机任务。

在 OSWorld-Verified 基准测试中,GPT-5.4 取得了 75% 的成功率,刷新了该领域的最高纪录(SOTA)。这一表现超越了上一代模型 GPT-5.2(47.3%)、人类平均水平(72.4%)以及近期登顶的 Claude Opus 4.6(72.7%)。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在能力整合方面,GPT-5.4 继承了 GPT-5.3-Codex 的全部编程能力,并新增了 100 万 token 的上下文长度和原生工具搜索功能,实现了推理、编程与计算机操控能力的全链路打通。GPT-5.4 Thinking 模式允许用户在模型思考过程中随时介入并调整方向,而不会打断其思路,从而在一次对话中完成复杂任务的交付。

精通知识工作,性能比肩专业人士

在知识工作领域,GPT-5.4 同样展现出强大实力。

在涵盖多个核心行业与职业的 GDPval 基准测试中,GPT-5.4 取得了 83.0% 的成绩,追平甚至超越了相关领域的专业人士,较上一代 GPT-5.2(70.9%)有显著提升。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在一项模拟初级投资银行分析师的电子表格建模测试中,GPT-5.4 平均得分达到 87.3%。此外,在生成演示文稿(PPT)的任务中,人类评估者更倾向于选择 GPT-5.4 的产出,认为其更具美感、视觉更丰富、图像使用更高效。

幻觉率显著降低

为了提升模型在实际工作中的可靠性,OpenAI 重点优化了 GPT-5.4 的事实准确性。在一组包含用户标记事实错误的提示词测试中,相较于 GPT-5.2,GPT-5.4 单独声明出错的概率降低了 33%,整个回复包含任何错误的概率降低了 18%。

推理与编程能力合二为一

GPT-5.4 的另一大亮点是完整集成了 GPT-5.3-Codex 的编程能力,用户无需在“智能模型”和“编程专用模型”之间切换。

在 SWE-Bench Pro 测试中,GPT-5.4 取得了 57.7% 的准确率,与 GPT-5.3-Codex(56.8%)表现相当。更重要的是,GPT-5.4 是目前 OpenAI Token 效率最高的推理模型,解决相同问题所需的 Token 数量大幅减少,从而降低了成本并提升了速度。在 Codex 的 /fast 模式下,其 Token 生成速度最高可提升 1.5 倍。

通过 API,开发者可以使用“优先处理”(Priority Processing)模式获得同样快速的响应。内部测试还显示,GPT-5.4 在生成复杂且功能完备的前端界面方面表现卓越。

视觉感知与文档解析能力增强

GPT-5.4 强大的执行能力建立在更强的通用视觉感知基础之上。

在 MMMU-Pro 测试中,GPT-5.4(未使用工具)的成功率达到 81.2%,优于 GPT-5.2(79.5%)。视觉感知的提升也直接转化为更强的文档解析能力,在 OmniDocBench 上,GPT-5.4 的平均误差(0.109)低于 GPT-5.2(0.140)。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

此外,GPT-5.4 首次引入了“原始”(original)和“高”(high)两种图像输入细节级别,支持更高保真度的图像理解,并在定位、理解和交互准确性方面均有大幅提升。

  • 主题公园模拟游戏仅凭一段提示词,GPT-5.4 就构建出一个完整的经营类游戏。这个自动运行的微观世界包含瓦片路网、设施建造、景观美化等完整要素,资金、客流、幸福感与评分系统环环相扣。Playwright 在此过程中充当了严苛的质检员,通过自动化测试对从疯狂扩建到设施拆除、从镜头导航到 UI 数据验证的各个环节进行高压验证,最终完成交付。
  • 战棋 RPG经过多轮迭代,GPT-5.4 打造出一款包含移动、行动、站位和遭遇战等完整系统的回合制网格战斗游戏。图像生成负责角色和美术风格,Playwright 则在每轮迭代中验证界面交互、检查并微调 UI 行为与着色器效果,直至战斗手感、视觉表现和整体体验全部调优到位。
  • 金门大桥飞行体验同样从一段提示词开始,GPT-5.4 生成了一个可自由飞行的超写实 3D 场景,具备逼真的光照、水面、雾气、悬索、车流、海岸线与城市背景,支持近距离穿越与远景俯瞰。Playwright 化身“王牌飞行员”,进行多角度全自动巡航测试,不仅验证渲染视口的稳定性,还通过截图反馈协助 AI 持续校准构图与光影分布,历经一小时高频迭代。

引入“工具搜索”,Token 使用量降低 47%

在工具使用能力上,GPT-5.4 实现了多层次的进化。

  • 工具搜索GPT-5.4 引入了“工具搜索”功能,有效解决了因 MCP 工具过多导致的上下文爆炸问题。模型仅需一个轻量级的可用工具列表,在真正需要特定工具时会自动查找其定义并即时加载。在 Scale 的 MCP Atlas 基准测试(包含 250 个任务,启用全部 36 个 MCP 服务器)中,该配置在保持相同准确率的同时,将总 Token 使用量减少了 47%OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

    这对于工具定义动辄消耗数万 Token 的 MCP 服务器而言,效率提升显著。

  • 智能体工具调用GPT-5.4 在推理过程中决定“何时”及“如何”使用工具时更加精准。在 Toolathlon 基准测试中,它以 54.6% 的准确率大幅领先于 GPT-5.3-Codex(51.9%)和 GPT-5.2(45.7%),且使用轮次更少。其智能体现在能够顺畅完成“阅读电子邮件→提取作业附件→上传附件→对作业评分→将结果记录到电子表格”等全套多步流程。OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

    Toolathlon:评估多步任务中现实世界工具和 API 的使用能力。

    在延迟敏感的场景(推理强度设为 None)下,GPT-5.4 在 τ²-bench 电信客服任务上也大幅领先。而在开启高推理强度(xhigh)的情况下,其在该基准上的准确率更是达到了 98.9%,接近完美。

    OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

网络搜索能力暴涨 17%,Pro 版刷新纪录

GPT-5.4 的智能体网络搜索能力也迎来了大幅升级。在 BrowseComp 测试中,此前领先的 Claude Opus 4.6 成绩为 84.0%,远超 GPT-5.2 Pro 的 77.9%。而 GPT-5.4 Pro 直接以 89.3% 的成绩实现反超,其标准版的 82.7% 也与 Opus 4.6 十分接近。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在实际应用中,这意味着 GPT-5.4 Thinking 更擅长回答需要从网络多源头整合信息的问题。它能进行更持久的多轮搜索以筛选最相关来源,尤其擅长处理“大海捞针”式查询,并将信息综合成条理清晰、推理严密的答案。同时,它在处理需要长时间思考的复杂问题时,能更好地保持上下文记忆。

思考过程可中途调整,告别推倒重来

GPT-5.4 Thinking 在思考过程中允许用户随时介入,而不会打断其思路。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

此功能现已在网页和 Android 应用上线,iOS 版即将推出。

针对复杂冗长的查询,模型会在回复前通过一段前言来梳理工作计划。关键在于,用户可以在其运行中途直接调整方向或补充说明,无需等待全部完成后再推倒重来。这使得一次对话就能获得理想结果,省去了多轮沟通的成本。同时,模型在处理困难任务时能进行更深入的思考,并对对话历史步骤保持更强的感知。

OpenAI 重回王座,AI 格局生变

GPT-5.4 的发布,是 OpenAI 对 Gemini 3.1 Pro 和 Claude Opus 4.6 的一次全面回应。其强大之处在于 没有明显短板,在推理、编程、视觉、工具使用、计算机操作、网络搜索、知识工作等每一条战线上都达到了顶尖水平。这不仅是单点突破,更是全维度的领先。OpenAI 通过 GPT-5.4 再次证明,在通往 AGI 的道路上,它依然是最不可忽视的参与者。

详细性能:全维度领先

最后,附上 GPT-5.4 的综合性能成绩单。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

上下滑动查看

参考资料:
* https://x.com/OpenAI/status/2029620619743219811?s=20
* https://developers.openai.com/api/docs/models/gpt-5.4
* https://openai.com/index/introducing-gpt-5-4/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24486

(0)
上一篇 11小时前
下一篇 11小时前

相关推荐

  • 阿里巴巴「3A」协同优化框架:以异步架构、非对称PPO与注意力机制重塑RL4LLM高效训练范式

    近期,阿里巴巴ROLL团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出的「3A」协同优化框架,标志着强化学习在大语言模型(RL4LLM)领域迈入高效、精细与可解释的新阶段。该框架并非孤立技术堆砌,而是通过Async架构(异步训练)、Asymmetric PPO(非对称PPO)与Attention机制(基于注意力的推理节奏)的…

    2025年11月10日
    15100
  • AMD Iris:Triton原生多GPU通信库,以Tile级抽象实现1.79倍性能飞跃,重塑计算-通信融合范式

    关键词:Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程 现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。 然而,多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡:高性能实现通常依赖于低层 HIP/CUDA 通信库,即便实现基本的 重叠模式也需要大量工程努力;而更简单的抽象则往往牺…

    2026年1月9日
    14500
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    12200
  • AI腔调入侵:当人类语言被大模型重塑,我们如何守护交流的真实性?

    近期,OpenAI首席执行官山姆·奥特曼在社交媒体上公开表达了对“AI腔调”(LLM-speak)现象的担忧。他在浏览关于Codex的论坛讨论时,发现大量帖子虽然内容属实,但语言风格高度同质化,充满程序化表达,让人怀疑是AI生成或人类模仿AI的结果。奥特曼指出,这种交流方式让真实的人际互动“感觉很假”,并警示过度依赖和模仿AI可能导致人性特质的流失。这一观察…

    2025年11月3日
    15000
  • 基础设施配置如何让Agent评测分数波动6%:Anthropic揭示基准测试的隐藏变量

    摘要 :Anthropic发现,Agent编程评测中的基础设施配置差异可以导致数个百分点的分数波动——有时甚至超过排行榜上顶尖模型之间的差距。这篇文章详细分析了资源配置如何影响评测结果,并给出了具体建议。 问题的发现 SWE-bench和Terminal-Bench等Agent编程基准测试被广泛用于比较前沿模型的软件工程能力——排行榜上的顶尖位置往往只相差几…

    2026年2月7日
    5500