OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在经历了一段时间的竞争压力后,OpenAI 推出了其最新旗舰模型 GPT-5.4。此次发布包括:
* ChatGPT 端:GPT-5.4 Thinking 与 GPT-5.4 Pro 全面上线。
* 开发者端:GPT-5.4 接入 API 与 Codex,并提供极速版本 GPT-5.4 fast。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王 OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

模型版本号直接跃升至 5.4,体现了这是一次在“推理”与“编程”能力上的融合式跨越。其在多项基准测试中表现突出:
* 在 GDPval 测试中胜率达到 83%,接近顶尖人类专家水平。
* 在 SWE-Bench Pro 编程基准和 FrontierMath 数学基准中均位列第一。
* 在 ARC-AGI-2 抽象推理测试中取得 83.3% 的新高成绩。

首个具备原生计算机使用能力的通用模型

GPT-5.4 是首个拥有原生计算机使用能力的通用模型。它能够识别用户界面(UI),模拟操控键盘和鼠标,在不同软件与网页间自如切换,执行复杂的多步骤计算机任务。

在 OSWorld-Verified 基准测试中,GPT-5.4 取得了 75% 的成功率,刷新了该领域的最高纪录(SOTA)。这一表现超越了上一代模型 GPT-5.2(47.3%)、人类平均水平(72.4%)以及近期登顶的 Claude Opus 4.6(72.7%)。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在能力整合方面,GPT-5.4 继承了 GPT-5.3-Codex 的全部编程能力,并新增了 100 万 token 的上下文长度和原生工具搜索功能,实现了推理、编程与计算机操控能力的全链路打通。GPT-5.4 Thinking 模式允许用户在模型思考过程中随时介入并调整方向,而不会打断其思路,从而在一次对话中完成复杂任务的交付。

精通知识工作,性能比肩专业人士

在知识工作领域,GPT-5.4 同样展现出强大实力。

在涵盖多个核心行业与职业的 GDPval 基准测试中,GPT-5.4 取得了 83.0% 的成绩,追平甚至超越了相关领域的专业人士,较上一代 GPT-5.2(70.9%)有显著提升。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在一项模拟初级投资银行分析师的电子表格建模测试中,GPT-5.4 平均得分达到 87.3%。此外,在生成演示文稿(PPT)的任务中,人类评估者更倾向于选择 GPT-5.4 的产出,认为其更具美感、视觉更丰富、图像使用更高效。

幻觉率显著降低

为了提升模型在实际工作中的可靠性,OpenAI 重点优化了 GPT-5.4 的事实准确性。在一组包含用户标记事实错误的提示词测试中,相较于 GPT-5.2,GPT-5.4 单独声明出错的概率降低了 33%,整个回复包含任何错误的概率降低了 18%。

推理与编程能力合二为一

GPT-5.4 的另一大亮点是完整集成了 GPT-5.3-Codex 的编程能力,用户无需在“智能模型”和“编程专用模型”之间切换。

在 SWE-Bench Pro 测试中,GPT-5.4 取得了 57.7% 的准确率,与 GPT-5.3-Codex(56.8%)表现相当。更重要的是,GPT-5.4 是目前 OpenAI Token 效率最高的推理模型,解决相同问题所需的 Token 数量大幅减少,从而降低了成本并提升了速度。在 Codex 的 /fast 模式下,其 Token 生成速度最高可提升 1.5 倍。

通过 API,开发者可以使用“优先处理”(Priority Processing)模式获得同样快速的响应。内部测试还显示,GPT-5.4 在生成复杂且功能完备的前端界面方面表现卓越。

视觉感知与文档解析能力增强

GPT-5.4 强大的执行能力建立在更强的通用视觉感知基础之上。

在 MMMU-Pro 测试中,GPT-5.4(未使用工具)的成功率达到 81.2%,优于 GPT-5.2(79.5%)。视觉感知的提升也直接转化为更强的文档解析能力,在 OmniDocBench 上,GPT-5.4 的平均误差(0.109)低于 GPT-5.2(0.140)。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

此外,GPT-5.4 首次引入了“原始”(original)和“高”(high)两种图像输入细节级别,支持更高保真度的图像理解,并在定位、理解和交互准确性方面均有大幅提升。

  • 主题公园模拟游戏仅凭一段提示词,GPT-5.4 就构建出一个完整的经营类游戏。这个自动运行的微观世界包含瓦片路网、设施建造、景观美化等完整要素,资金、客流、幸福感与评分系统环环相扣。Playwright 在此过程中充当了严苛的质检员,通过自动化测试对从疯狂扩建到设施拆除、从镜头导航到 UI 数据验证的各个环节进行高压验证,最终完成交付。
  • 战棋 RPG经过多轮迭代,GPT-5.4 打造出一款包含移动、行动、站位和遭遇战等完整系统的回合制网格战斗游戏。图像生成负责角色和美术风格,Playwright 则在每轮迭代中验证界面交互、检查并微调 UI 行为与着色器效果,直至战斗手感、视觉表现和整体体验全部调优到位。
  • 金门大桥飞行体验同样从一段提示词开始,GPT-5.4 生成了一个可自由飞行的超写实 3D 场景,具备逼真的光照、水面、雾气、悬索、车流、海岸线与城市背景,支持近距离穿越与远景俯瞰。Playwright 化身“王牌飞行员”,进行多角度全自动巡航测试,不仅验证渲染视口的稳定性,还通过截图反馈协助 AI 持续校准构图与光影分布,历经一小时高频迭代。

引入“工具搜索”,Token 使用量降低 47%

在工具使用能力上,GPT-5.4 实现了多层次的进化。

  • 工具搜索GPT-5.4 引入了“工具搜索”功能,有效解决了因 MCP 工具过多导致的上下文爆炸问题。模型仅需一个轻量级的可用工具列表,在真正需要特定工具时会自动查找其定义并即时加载。在 Scale 的 MCP Atlas 基准测试(包含 250 个任务,启用全部 36 个 MCP 服务器)中,该配置在保持相同准确率的同时,将总 Token 使用量减少了 47%OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

    这对于工具定义动辄消耗数万 Token 的 MCP 服务器而言,效率提升显著。

  • 智能体工具调用GPT-5.4 在推理过程中决定“何时”及“如何”使用工具时更加精准。在 Toolathlon 基准测试中,它以 54.6% 的准确率大幅领先于 GPT-5.3-Codex(51.9%)和 GPT-5.2(45.7%),且使用轮次更少。其智能体现在能够顺畅完成“阅读电子邮件→提取作业附件→上传附件→对作业评分→将结果记录到电子表格”等全套多步流程。OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

    Toolathlon:评估多步任务中现实世界工具和 API 的使用能力。

    在延迟敏感的场景(推理强度设为 None)下,GPT-5.4 在 τ²-bench 电信客服任务上也大幅领先。而在开启高推理强度(xhigh)的情况下,其在该基准上的准确率更是达到了 98.9%,接近完美。

    OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

网络搜索能力暴涨 17%,Pro 版刷新纪录

GPT-5.4 的智能体网络搜索能力也迎来了大幅升级。在 BrowseComp 测试中,此前领先的 Claude Opus 4.6 成绩为 84.0%,远超 GPT-5.2 Pro 的 77.9%。而 GPT-5.4 Pro 直接以 89.3% 的成绩实现反超,其标准版的 82.7% 也与 Opus 4.6 十分接近。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

在实际应用中,这意味着 GPT-5.4 Thinking 更擅长回答需要从网络多源头整合信息的问题。它能进行更持久的多轮搜索以筛选最相关来源,尤其擅长处理“大海捞针”式查询,并将信息综合成条理清晰、推理严密的答案。同时,它在处理需要长时间思考的复杂问题时,能更好地保持上下文记忆。

思考过程可中途调整,告别推倒重来

GPT-5.4 Thinking 在思考过程中允许用户随时介入,而不会打断其思路。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

此功能现已在网页和 Android 应用上线,iOS 版即将推出。

针对复杂冗长的查询,模型会在回复前通过一段前言来梳理工作计划。关键在于,用户可以在其运行中途直接调整方向或补充说明,无需等待全部完成后再推倒重来。这使得一次对话就能获得理想结果,省去了多轮沟通的成本。同时,模型在处理困难任务时能进行更深入的思考,并对对话历史步骤保持更强的感知。

OpenAI 重回王座,AI 格局生变

GPT-5.4 的发布,是 OpenAI 对 Gemini 3.1 Pro 和 Claude Opus 4.6 的一次全面回应。其强大之处在于 没有明显短板,在推理、编程、视觉、工具使用、计算机操作、网络搜索、知识工作等每一条战线上都达到了顶尖水平。这不仅是单点突破,更是全维度的领先。OpenAI 通过 GPT-5.4 再次证明,在通往 AGI 的道路上,它依然是最不可忽视的参与者。

详细性能:全维度领先

最后,附上 GPT-5.4 的综合性能成绩单。

OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王

上下滑动查看

参考资料:
* https://x.com/OpenAI/status/2029620619743219811?s=20
* https://developers.openai.com/api/docs/models/gpt-5.4
* https://openai.com/index/introducing-gpt-5-4/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24486

(0)
上一篇 2026年3月6日 上午10:09
下一篇 2026年3月6日 上午10:42

相关推荐

  • AI过度使用引发“烧脑”危机:哈佛研究揭示认知过载与工作压力剧增

    过度依赖人工智能工具,非但未能如预期般减轻工作负担,反而可能引发一种新型的职业疲劳——“AI烧脑”。哈佛大学的一项最新研究揭示了这一现象背后的认知过载与压力剧增问题。 研究指出,问题的核心并非AI使人变笨,而在于人类认知速度难以匹配AI的处理节奏,导致了 “认知降维打击下的压力过载” 。从过去手动编写或整合代码,转变为如今持续监督AI Agent工作,工作流…

    2026年3月17日
    53300
  • 情感AI的黎明:从理性计算到共情理解的范式转移

    在人工智能技术飞速发展的当下,一个引人深思的转折点正在浮现:当模型的计算能力已接近人类认知的某些层面时,我们是否应该让它们更进一步——从纯粹的理性推理走向情感理解?这一问题的答案,或许正隐藏在Eric Zelikman离开xAI、创立Humans&的决策背后。这不仅是一位研究者的职业选择,更预示着AI产业可能迎来一次从“智能”到“智慧”的深刻变革。 …

    2025年11月13日
    29000
  • LLM重构数据准备:从规则驱动到语义驱动的范式革命

    在企业级系统中,数据团队普遍面临一个困境:模型迭代飞速,但数据准备的「老旧管道」却愈发沉重。清洗、对齐、标注……这些工作依然深陷于人工规则与专家经验的泥潭。 数据格式五花八门:正则表达式越写越多,却总有意想不到的「脏数据」出现。 跨系统表结构不一致:对齐逻辑复杂,人工映射耗时耗力。 海量数据缺少标签和语义描述:分析师「看不懂、用不好」。 这背后是数据准备这一…

    2026年2月8日
    24800
  • DeepSeek寻求百亿融资!V4万亿参数+华为昇腾加持,AI圈炸锅

    今早,AI圈被一则消息震撼:此前坚持不融资的DeepSeek,正寻求以不低于100亿美元的估值进行首次外部融资,目标筹集至少3亿美元。此举正值其下一代模型V4发布前夕,该模型据传将达万亿参数规模,并首次深度适配华为昇腾芯片。 融资策略的重大转变 据外媒The Information报道,DeepSeek正在寻求其首次外部融资,计划以不低于100亿美元的估值筹…

    2天前
    23300
  • 中国大模型周调用量飙升至4.19万亿Token,再度登顶全球榜首

    根据OpenRouter最新数据,在3月2日至8日这一周,中国大模型的周调用总量飙升至4.19万亿Token,环比增长34.9%。与此同时,美国大模型的调用总量为3.63万亿Token,环比下降8.5%。这是继今年2月中国大模型周调用量首次超越美国后,中国大模型再度强势登顶全球榜首。 数据显示,中美大模型活跃度在上周出现明显分化。中国大模型调用总量激增,而美…

    2026年3月11日
    68800