GPT-5.4 发布：五大核心能力集于一身，知识工作表现超越多数人类

长期以来，用户在使用AI工具时，常常需要根据任务类型在不同模型间切换：编写代码、查询资料、操作计算机往往需要调用不同的专用模型。OpenAI最新发布的GPT-5.4旨在终结这种割裂的体验。该模型将编程、推理、计算机操控、网页搜索以及百万级Token上下文处理能力整合进同一个通用模型，且各项能力均未因整合而削弱。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

OpenAI首席执行官山姆·奥特曼在X平台发布推文，概括了GPT-5.4的五个关键方向：更强大的知识工作能力、更出色的网页搜索、原生计算机操控、支持百万Token上下文，以及在响应过程中允许用户随时介入。这几点精准对应了过去两年AI应用落地过程中最突出的几个挑战。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

知识工作：在多数专业任务中超越人类

要理解GPT-5.4在知识工作上的进步，需先了解GDPval基准测试。该测试横跨对美国GDP贡献最大的9个行业、44种职业，任务均来自真实职场场景，例如为投资银行创建财务模型、为医院安排急诊班次、为销售团队制作演示文稿等。任务产出会交由对应行业的从业者进行盲测打分，以评估AI输出胜过人类同行的比例。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

GPT-5.4在该测试中取得了83.0%的成绩，意味着在超过八成的对比中，行业专家认为其产出达到或超过了人类水准。上一代GPT-5.2的成绩为70.9%，差距接近13个百分点。进步在电子表格建模任务中尤为明显：GPT-5.4模拟初级投行分析师完成建模任务的平均得分为87.3%，而GPT-5.2和GPT-5.3-Codex的得分分别为68.4%和79.3%，差距近20个百分点。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

在法律平台Harvey的BigLaw Bench测试中，GPT-5.4得分91%；在专业服务评测平台Mercor的APEX-Agents基准中也位列第一。

准确性方面亦有显著提升。幻觉问题是AI进入专业场景的主要障碍。数据显示，与GPT-5.2相比，GPT-5.4单条陈述出错的概率降低了33%，完整回复中含有错误的概率降低了18%。

编程：代码编写与测试一体化

GPT-5.4将此前GPT-5.3-Codex的编程能力整合进主线模型。这意味着开发者无需再为编程任务单独调用专用模型，且整合后的编程能力并未打折。在测试真实软件工程任务的SWE-Bench Pro基准中，GPT-5.4得分57.7%，高于GPT-5.3-Codex的56.8%和GPT-5.2的55.6%。整合后，编程能力不降反升，同时还获得了计算机操控等通用能力。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

知名AI评测博主Dan Shipper试用后指出：“这是我们近期所见OpenAI最出色的规划能力，其代码审查也很强大，而成本大约只有Claude Opus的一半。” GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83% 他强调了两个具体优势：一是规划能力，这对长任务的成功至关重要，GPT-5.4在任务拆解和推进上更有条理；二是成本优势，对于需要大规模API调用的开发者而言，成本减半将带来显著的经济效益。

开启Codex中的 /fast 模式后，GPT-5.4的Token生成速度最高可提升1.5倍，有助于在编码、迭代和调试过程中保持流畅的工作状态。

GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%
与此同时，新推出的实验性功能Playwright Interactive进一步提升了编程体验。在构建Web或Electron应用时，GPT-5.4能够通过可视化浏览器进行实时调试，边写代码边测试正在构建的应用，同时扮演开发者和测试员的角色。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

OpenAI展示了一个典型案例：仅凭一条简单的提示词，GPT-5.4便生成了一个完整的等距视角主题公园模拟游戏，包含基于瓦片的路径铺设与景点建设系统、游客AI寻路与排队行为，以及资金、游客数、满意度、清洁度四项实时动态更新的指标。Playwright Interactive在整个过程中执行了多轮自动化测试，验证了路径铺设、摄像机导航、游客响应及UI指标的正确性，实现了从编码到测试验收的全流程自动化。

博主Angel使用GPT-5.4编写了一个《Minecraft》克隆版，模型耗时约24分钟，运行流畅无卡顿。他在推文中写道：“《Minecraft》基本上被攻克了，我现在得找个新测试了。” GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他使用同一条提示词，让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景，全程无报错，仅额外追加了一句“把它做得更好”的指令。他将生成结果与两年前GPT-4的版本并排对比，差距一目了然。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

计算机操控：原生集成，表现超越人类

计算机操控能力是GPT-5.4此次最值得关注的变化之一。此前，OpenAI的计算机操控是一个独立模块，与模型的语言理解和代码生成能力之间存在隔阂，两套系统信息传递导致效率折损。现在，这道隔阂被移除，GPT-5.4操控计算机时直接调用模型自身的推理能力。这也是OpenAI首款将计算机使用能力原生内置进通用模型的产品，为AI Agent的发展设立了新起点。

基准测试结果显示，在OSWorld-Verified基准（通过截图和鼠标键盘交互完成真实操作系统任务）中，GPT-5.4达到了75.0%的成功率，高于72.4%的人类基线水平，而GPT-5.2的成功率为47.3%。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83% 简言之，其表现不仅追平而且超越了人类。

在仅使用截图模式测试浏览器操控的Online-Mind2Web基准中，GPT-5.4达到92.8%的成功率，对比对象ChatGPT Atlas的Agent Mode为70.9%。

实际部署案例更具说服力。Mainstay公司将GPT-5.4用于约三万个物业税务门户网站的自动表单填写任务，首次成功率高达95%，三次尝试内成功率可达100%。而此前同类模型的成功率仅在73%至79%之间。此外，会话完成速度提升了约三倍，Token消耗降低了约70%。

这一成就离不开视觉感知能力的改进。操控计算机本质上需要“看清”界面元素、按钮位置并确保点击准确。GPT-5.4在此方面进行了专项加强，引入了“原始图像”输入模式，支持最高1024万像素或6000像素最大边长的高保真图像输入；原有的“高清”模式上限也从此前的标准提升至256万像素或2048像素最大边长。

工具调用与网页搜索：效率与持续性的革新

传统 AI Agent 系统在处理复杂任务时，通常需要在对话开始时加载所有可用工具的完整说明，无论本次对话是否用到，这导致了显著的 Token 浪费。GPT-5.4 对此进行了优化，引入了工具搜索机制。模型首先获取一份简明的工具清单，仅在需要时动态调用特定工具的详细说明，且调用过的工具说明会被缓存以供后续使用。

在包含 250 项任务的测试中，在启用 36 个 MCP 服务器的完整配置下，此模式在保持任务准确率不变的前提下，将总 Token 消耗降低了 47%，实现了近一半的成本节约。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

在网页搜索能力方面，GPT-5.4 在 BrowseComp 基准测试中取得了 82.7% 的得分，较 GPT-5.2 的 65.8% 提升了 17 个百分点。其 Pro 版本得分更高达 89.3%，创下了该基准的业界最高分。有评价指出，GPT-5.4 展现出更强的搜索持续性，能够在其他模型可能放弃的情况下继续深入查找信息。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

百万 Token 上下文：能力与成本的平衡

GPT-5.4 的 API 支持最高 100 万 Token 的上下文窗口，理论上允许将整个项目的文档纳入单次对话。然而，测试数据显示其性能最稳定的区间在 128K 至 272K Token，适合日常使用。

当上下文长度超过 256K 时，模型准确率开始下降；在 512K 至 1M 的区间内，得分降至约 36.6%，目前该范围更适用于实验性探索，而非高精度要求的实际生产任务。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

此外，使用超长上下文伴随更高的成本：超过 272K Token 的请求将按双倍用量计入配额消耗。用户需权衡是否真正需要如此长的上下文窗口。

专业基准测试表现

GPT-5.4 在多项高难度专业基准上展示了显著进步：
* 视觉抽象推理（ARC-AGI-2）：GPT-5.4 Pro 得分 83.3%，远超上代 Pro 版本的 54.2%。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%
* 高阶数学（FrontierMath Tier 4）：该基准包含 50 道研究级数学难题。GPT-5.4 Pro 得分 38.0%，高于上代的 31.3%。作为参照，一年前同类模型的最佳成绩仅为 2%，当前最佳开源模型成绩为 4.2%。有研究者评论这一飞跃“简直令人震惊”。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%
* 综合能力评估（Humanity‘s Last Exam，工具辅助）：GPT-5.4 Pro 得分 58.7%，较 GPT-5.2 Pro 的 50.0% 提升了近 9 个百分点。

执行中交互：提升长任务协作体验

针对处理长任务时可能出现的“方向跑偏、全部重来”的问题，GPT-5.4 Thinking 在 ChatGPT 中引入了 “中途打断” 功能。模型在执行复杂任务前会先呈现工作计划概要，用户可在其执行过程中随时介入并调整方向，将纠偏环节从“完成后”提前至“执行中”，显著提升了多轮协作任务的效率。

该功能已在 chatgpt.com 和 Android 应用上线，iOS 版本即将推出。

模型部署与定价

即日起，GPT-5.4 作为默认思考模型，向 ChatGPT Plus、Team 和 Pro 用户开放，取代 GPT-5.2 Thinking（后者将保留至 2025年6月5日）。Enterprise 和 Edu 用户可由管理员开启早期访问。GPT-5.4 Pro 面向 Pro 和 Enterprise 计划开放。

API 定价如下：
* 标准版：输入 2.50美元/百万Token，缓存输入 0.25美元/百万Token，输出 15美元/百万Token。
* Pro 版：输入 30美元/百万Token，输出 180美元/百万Token。
* 批量（Batch）与弹性（Flex）处理 享受标准价格五折优惠，优先处理（Priority Processing） 按标准价格两倍计费。

关于“过度思考”的提示

强大的推理能力有时会带来“过度思考”的情况。有用户反馈，即使面对非常简单的输入（如“Hi”），GPT-5.4 Pro 也可能启动深度推理流程，导致不必要的资源消耗。这提醒用户，对于日常轻量任务，标准版可能是更经济的选择；应将 Pro 版的强大推理能力留给真正复杂、值得的任务。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

结语：从回答问题到完成任务

过去两年，AI 能力的焦点多在于基准测试表现的“聪明”。而 GPT-5.4 所展现的，是一种能够在真实工作流中可靠承担责任的“聪明”。它正使 AI 从一个擅长回答问题的系统，转变为一个能够自主操作工具（如打开浏览器、填写表单、点击按钮、记录结果）并独立完成端到端任务闭环的系统。这一转变的速度，显然超出了许多人的预期。 GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

参考地址：https://openai.com/index/introducing-gpt-5-4/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/24538

GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

GPT-5.4 发布：五大核心能力集于一身，知识工作表现超越多数人类

知识工作：在多数专业任务中超越人类

编程：代码编写与测试一体化

计算机操控：原生集成，表现超越人类

工具调用与网页搜索：效率与持续性的革新

百万 Token 上下文：能力与成本的平衡

专业基准测试表现

执行中交互：提升长任务协作体验

模型部署与定价

关于“过度思考”的提示

结语：从回答问题到完成任务

相关推荐

MiMo-Embodied：全球首个跨具身基座模型的技术突破与产业影响

Chrome 146重磅更新：原生MCP支持让AI Agent直接操控真实浏览器会话，自动化门槛大幅降低

AI乡村音乐登顶Billboard：算法狂欢下的艺术危机与产业变革

DreamOmni2：字节跳动开源多模态图像编辑工具，开启自然语言驱动的视觉创作新时代

大脑中的语言处理器：MIT神经科学家揭示人类语言网络的生物LLM本质