GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

GPT-5.4 发布:五大核心能力集于一身,知识工作表现超越多数人类

长期以来,用户在使用AI工具时,常常需要根据任务类型在不同模型间切换:编写代码、查询资料、操作计算机往往需要调用不同的专用模型。OpenAI最新发布的GPT-5.4旨在终结这种割裂的体验。该模型将编程、推理、计算机操控、网页搜索以及百万级Token上下文处理能力整合进同一个通用模型,且各项能力均未因整合而削弱。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

OpenAI首席执行官山姆·奥特曼在X平台发布推文,概括了GPT-5.4的五个关键方向:更强大的知识工作能力、更出色的网页搜索、原生计算机操控、支持百万Token上下文,以及在响应过程中允许用户随时介入。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83% 这几点精准对应了过去两年AI应用落地过程中最突出的几个挑战。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

知识工作:在多数专业任务中超越人类

要理解GPT-5.4在知识工作上的进步,需先了解GDPval基准测试。该测试横跨对美国GDP贡献最大的9个行业、44种职业,任务均来自真实职场场景,例如为投资银行创建财务模型、为医院安排急诊班次、为销售团队制作演示文稿等。任务产出会交由对应行业的从业者进行盲测打分,以评估AI输出胜过人类同行的比例。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

GPT-5.4在该测试中取得了83.0%的成绩,意味着在超过八成的对比中,行业专家认为其产出达到或超过了人类水准。上一代GPT-5.2的成绩为70.9%,差距接近13个百分点。进步在电子表格建模任务中尤为明显:GPT-5.4模拟初级投行分析师完成建模任务的平均得分为87.3%,而GPT-5.2和GPT-5.3-Codex的得分分别为68.4%和79.3%,差距近20个百分点。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

在法律平台Harvey的BigLaw Bench测试中,GPT-5.4得分91%;在专业服务评测平台Mercor的APEX-Agents基准中也位列第一。

准确性方面亦有显著提升。幻觉问题是AI进入专业场景的主要障碍。数据显示,与GPT-5.2相比,GPT-5.4单条陈述出错的概率降低了33%,完整回复中含有错误的概率降低了18%。

编程:代码编写与测试一体化

GPT-5.4将此前GPT-5.3-Codex的编程能力整合进主线模型。这意味着开发者无需再为编程任务单独调用专用模型,且整合后的编程能力并未打折。在测试真实软件工程任务的SWE-Bench Pro基准中,GPT-5.4得分57.7%,高于GPT-5.3-Codex的56.8%和GPT-5.2的55.6%。整合后,编程能力不降反升,同时还获得了计算机操控等通用能力。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

知名AI评测博主Dan Shipper试用后指出:“这是我们近期所见OpenAI最出色的规划能力,其代码审查也很强大,而成本大约只有Claude Opus的一半。” GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83% 他强调了两个具体优势:一是规划能力,这对长任务的成功至关重要,GPT-5.4在任务拆解和推进上更有条理;二是成本优势,对于需要大规模API调用的开发者而言,成本减半将带来显著的经济效益。

开启Codex中的 /fast 模式后,GPT-5.4的Token生成速度最高可提升1.5倍,有助于在编码、迭代和调试过程中保持流畅的工作状态。

GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%
与此同时,新推出的实验性功能Playwright Interactive进一步提升了编程体验。在构建Web或Electron应用时,GPT-5.4能够通过可视化浏览器进行实时调试,边写代码边测试正在构建的应用,同时扮演开发者和测试员的角色。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

OpenAI展示了一个典型案例:仅凭一条简单的提示词,GPT-5.4便生成了一个完整的等距视角主题公园模拟游戏,包含基于瓦片的路径铺设与景点建设系统、游客AI寻路与排队行为,以及资金、游客数、满意度、清洁度四项实时动态更新的指标。Playwright Interactive在整个过程中执行了多轮自动化测试,验证了路径铺设、摄像机导航、游客响应及UI指标的正确性,实现了从编码到测试验收的全流程自动化。

博主Angel使用GPT-5.4编写了一个《Minecraft》克隆版,模型耗时约24分钟,运行流畅无卡顿。他在推文中写道:“《Minecraft》基本上被攻克了,我现在得找个新测试了。” GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他使用同一条提示词,让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景,全程无报错,仅额外追加了一句“把它做得更好”的指令。他将生成结果与两年前GPT-4的版本并排对比,差距一目了然。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

计算机操控:原生集成,表现超越人类

计算机操控能力是GPT-5.4此次最值得关注的变化之一。此前,OpenAI的计算机操控是一个独立模块,与模型的语言理解和代码生成能力之间存在隔阂,两套系统信息传递导致效率折损。现在,这道隔阂被移除,GPT-5.4操控计算机时直接调用模型自身的推理能力。这也是OpenAI首款将计算机使用能力原生内置进通用模型的产品,为AI Agent的发展设立了新起点。

基准测试结果显示,在OSWorld-Verified基准(通过截图和鼠标键盘交互完成真实操作系统任务)中,GPT-5.4达到了75.0%的成功率,高于72.4%的人类基线水平,而GPT-5.2的成功率为47.3%。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83% 简言之,其表现不仅追平而且超越了人类。

在仅使用截图模式测试浏览器操控的Online-Mind2Web基准中,GPT-5.4达到92.8%的成功率,对比对象ChatGPT Atlas的Agent Mode为70.9%。

实际部署案例更具说服力。Mainstay公司将GPT-5.4用于约三万个物业税务门户网站的自动表单填写任务,首次成功率高达95%,三次尝试内成功率可达100%。而此前同类模型的成功率仅在73%至79%之间。此外,会话完成速度提升了约三倍,Token消耗降低了约70%。

这一成就离不开视觉感知能力的改进。操控计算机本质上需要“看清”界面元素、按钮位置并确保点击准确。GPT-5.4在此方面进行了专项加强,引入了“原始图像”输入模式,支持最高1024万像素或6000像素最大边长的高保真图像输入;原有的“高清”模式上限也从此前的标准提升至256万像素或2048像素最大边长。

工具调用与网页搜索:效率与持续性的革新

传统 AI Agent 系统在处理复杂任务时,通常需要在对话开始时加载所有可用工具的完整说明,无论本次对话是否用到,这导致了显著的 Token 浪费。GPT-5.4 对此进行了优化,引入了工具搜索机制。模型首先获取一份简明的工具清单,仅在需要时动态调用特定工具的详细说明,且调用过的工具说明会被缓存以供后续使用。

在包含 250 项任务的测试中,在启用 36 个 MCP 服务器的完整配置下,此模式在保持任务准确率不变的前提下,将总 Token 消耗降低了 47%,实现了近一半的成本节约。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

在网页搜索能力方面,GPT-5.4 在 BrowseComp 基准测试中取得了 82.7% 的得分,较 GPT-5.2 的 65.8% 提升了 17 个百分点。其 Pro 版本得分更高达 89.3%,创下了该基准的业界最高分。有评价指出,GPT-5.4 展现出更强的搜索持续性,能够在其他模型可能放弃的情况下继续深入查找信息。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

百万 Token 上下文:能力与成本的平衡

GPT-5.4 的 API 支持最高 100 万 Token 的上下文窗口,理论上允许将整个项目的文档纳入单次对话。然而,测试数据显示其性能最稳定的区间在 128K 至 272K Token,适合日常使用。

当上下文长度超过 256K 时,模型准确率开始下降;在 512K 至 1M 的区间内,得分降至约 36.6%,目前该范围更适用于实验性探索,而非高精度要求的实际生产任务。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

此外,使用超长上下文伴随更高的成本:超过 272K Token 的请求将按双倍用量计入配额消耗。用户需权衡是否真正需要如此长的上下文窗口。

专业基准测试表现

GPT-5.4 在多项高难度专业基准上展示了显著进步:
* 视觉抽象推理(ARC-AGI-2):GPT-5.4 Pro 得分 83.3%,远超上代 Pro 版本的 54.2%。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%
* 高阶数学(FrontierMath Tier 4):该基准包含 50 道研究级数学难题。GPT-5.4 Pro 得分 38.0%,高于上代的 31.3%。作为参照,一年前同类模型的最佳成绩仅为 2%,当前最佳开源模型成绩为 4.2%。有研究者评论这一飞跃“简直令人震惊”。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%
* 综合能力评估(Humanity‘s Last Exam,工具辅助):GPT-5.4 Pro 得分 58.7%,较 GPT-5.2 Pro 的 50.0% 提升了近 9 个百分点。

执行中交互:提升长任务协作体验

针对处理长任务时可能出现的“方向跑偏、全部重来”的问题,GPT-5.4 Thinking 在 ChatGPT 中引入了 “中途打断” 功能。模型在执行复杂任务前会先呈现工作计划概要,用户可在其执行过程中随时介入并调整方向,将纠偏环节从“完成后”提前至“执行中”,显著提升了多轮协作任务的效率。

该功能已在 chatgpt.com 和 Android 应用上线,iOS 版本即将推出。

模型部署与定价

即日起,GPT-5.4 作为默认思考模型,向 ChatGPT Plus、Team 和 Pro 用户开放,取代 GPT-5.2 Thinking(后者将保留至 2025年6月5日)。Enterprise 和 Edu 用户可由管理员开启早期访问。GPT-5.4 Pro 面向 Pro 和 Enterprise 计划开放。

API 定价如下:
* 标准版:输入 2.50美元/百万Token,缓存输入 0.25美元/百万Token,输出 15美元/百万Token。
* Pro 版:输入 30美元/百万Token,输出 180美元/百万Token。
* 批量(Batch)与弹性(Flex)处理 享受标准价格五折优惠,优先处理(Priority Processing) 按标准价格两倍计费。

关于“过度思考”的提示

强大的推理能力有时会带来“过度思考”的情况。有用户反馈,即使面对非常简单的输入(如“Hi”),GPT-5.4 Pro 也可能启动深度推理流程,导致不必要的资源消耗。这提醒用户,对于日常轻量任务,标准版可能是更经济的选择;应将 Pro 版的强大推理能力留给真正复杂、值得的任务。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

结语:从回答问题到完成任务

过去两年,AI 能力的焦点多在于基准测试表现的“聪明”。而 GPT-5.4 所展现的,是一种能够在真实工作流中可靠承担责任的“聪明”。它正使 AI 从一个擅长回答问题的系统,转变为一个能够自主操作工具(如打开浏览器、填写表单、点击按钮、记录结果)并独立完成端到端任务闭环的系统。这一转变的速度,显然超出了许多人的预期。 GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%


参考地址:https://openai.com/index/introducing-gpt-5-4/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24538

(0)
上一篇 11小时前
下一篇 5小时前

相关推荐