GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

「地狱级」编程挑战,终于被AI征服了!

今天,在ProgramBench这个所有前沿AI都交出白卷的基准上,GPT-5.5成功拿下首杀!

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

在C和Python两种不同编程语言上,GPT-5.5 xhigh版本完全碾压了Opus 4.7 xhigh。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

就在几天前,Meta联手斯坦福、哈佛推出了全新的ProgramBench编程基准

200道题目,所有前沿AI模型的通过率——0%。

没有一款模型能完整解决哪怕一道题。如今,GPT-5.5成为了首个打破僵局的选手!

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7


编程AI的「终极考试」:从零重建程序


ProgramBench究竟难在哪里?

传统的编程基准,无论是SWE-bench还是HumanEval,本质上都属于「修bug」或「补函数」的范畴。

它们给模型一个已有的代码库,告诉它哪里出了问题,让它去修复。

这是开卷考试,甚至可以说是半开卷。而ProgramBench则截然不同。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

它提供一个编译好的可执行文件以及一份文档,然后要求:从零开始,把这个程序重写出来。

没有源码可供参考,禁止反编译,禁止联网查询。

这200个任务涵盖了从jq、ripgrep等小工具,到FFmpeg、SQLite、PHP编译器这类重量级项目。

OpenAI研究员Noam Brown此前曾表示,「是时候淘汰GQPA这类评估方式,引入一套全新的标准了」。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

刚发布时,所有刷榜的AI几乎全军覆没。这一次,GPT-5.5终于扳回一局。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7


GPT-5.5首破纪录:同一道题,C和Python两种解法


GPT-5.5攻克的首个任务是——cmatrix,一个经典的终端「黑客帝国」数字雨效果程序。

让研究人员感到惊讶的是,GPT-5.5的high和xhigh两个推理级别,选择了完全不同的语言来解决同一道题。

high版本使用C语言,xhigh版本则选用Python。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

最终结果,两者都通过了全部行为测试。

GPT-5.5 high的策略堪称教科书级别:先用10轮探索测试了40多种flag组合,彻底摸清了原程序的CLI行为。

然后一次性写出完整的C语言实现,仅用5次微调修补就顺利完成。

GPT-5.5 xhigh则更为彻底,历经27步探索,把每一条CLI路径都摸了个遍,然后一气呵成写出完整的Python实现。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

|

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

—|—

关键数据来了。

未开启高推理模式的GPT-5.5(medium),成绩勉强比Claude Sonnet 4.6好一点。

但一旦切换到xhigh模式,性能直接起飞。

不仅首次解出一道题(通过率0.5%),还创下了「几乎解出」任务的新纪录:26个任务通过了95%以上的单元测试。

更值得注意的是,GPT-5.5 xhigh在完整的累积直方图上全程碾压所有对手。

无论选择什么指标——平均分、中位数、≥90%通过率、≥50%通过率——它都稳居第一。


178次调用,Opus 4.7栽在两个bug上


相比之下,Claude Opus 4.7 xhigh的表现令人唏嘘。

它花费了$10.74,调用了178次API,是GPT-5.5普通版$1.04、17次调用的10倍。

结果,19个测试失败,全场表现最差。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

Opus 4.7的失败原因出人意料地简单:

Bug 1:颜色解析大小写敏感。

代码使用了strcmp()而不是strcasecmp()。输入「GREEN」「Red」「BLUE」全部被判无效。

仅仅一个函数调用的差异,直接导致11个测试失败

在178步探索中,Opus从未测试过大写或混合大小写的颜色输入,它只试了小写和一个无效颜色「purple」。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

Bug 2:无效颜色的退出码写错了。

原程序遇到无效颜色时返回exit(0),而Opus写成了exit(1)。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

讽刺的是,Opus在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?" 输出的是exit=0。但在测试自己的实现时,却没有发现这个差异。

这导致了8个测试失败。

不过,Opus 4.7有一个亮点值得一提:它在处理缺失的ncurses头文件时展现了惊人的系统工程能力。

其他三个模型发现ncurses.h缺失后,直接改用ANSI转义序列。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

Opus 4.7却花费了大约20步进行深入调查,使用ldconfig -p发现运行时.so文件,用nm -D检查导出符号,然后手写了一份106行的头文件声明,直接链接动态库。

这是真正的创意工程,但并未带来更好的成绩。


还有199题未解


ProgramBench的出现,标志着编程基准进入了一个新阶段。

SWE-bench的通过率已经被卷到了88.7%。在GPQA上,AI已经超越了大多数PhD。

这些评估标准正在以惊人的速度「融化」,分数越来越高,区分度越来越低。

而ProgramBench,200道题,至今只有1道被解出,通过率:0.5%。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

更重要的是,这次破纪录揭示了一个关键趋势:「推理算力」正在成为编程AI能力的核心变量。

GPT-5.5在默认推理模式下表现平平,但高推理模式直接带来了质的飞跃。

这意味着,不是模型不够聪明,而是之前给它「思考」的时间不够。

ProgramBench的200道题里,还有199道在等待着挑战。

GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7


从零到一,不只是起点


回顾AI发展史上的每一次「首破零」时刻——

AlphaGo首次击败职业棋手、GPT-4首次通过律师资格考试、o1首次在数学奥赛题上拿分。

「从零到一」从来不是线性进步的起点,而是指数爆发的信号弹。

Noam Brown提出的推理算力Scaling Law,在ProgramBench上得到了迄今为止最直观的验证:

同一个GPT-5.5底座,medium模式几乎交白卷,high模式满分通关,xhigh模式断层碾压。

智能不再是一个固定值,而是算力的函数。

这意味着什么?意味着通往ASI的路径,可能不需要等待下一代架构革命。

只要推理算力持续扩展,只要Scaling Law不撞墙。

今天在ProgramBench上只能重建cmatrix的模型,明天就可能重建SQLite,后天就可能重建整个Linux内核。

参考资料:
https://x.com/polynoamial/status/2054255862441812099
https://programbench.com/blog/gpt-5-5-first-solve/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34670

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • Kimi-K2-Thinking实测:新一代Thinking Agent如何实现推理能力突破性增强?

    月之暗面近期发布了Kimi-K2-Thinking模型,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力。作为一款MoE架构模型(每次激活32B参数),我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…

    2025年11月18日
    58800
  • 国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章

    近日,全球具身世界模型权威基准评测平台 WorldArena 正式更新了其最新榜单。由 Manifold AI(流形空间)研发的世界模型 Worldscape 0.2,凭借在物理规律遵循与多源交互理解方面的重大突破,成功登顶 WorldArena 全球第一。这一成绩充分展示了国产世界模型在复杂动态场景生成与具身控制任务中所具备的高精度、强泛化能力以及物理可信…

    2026年4月27日
    29600
  • 国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

    全球榜单中唯一成功率超过50%的模型。 智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,…

    2026年1月12日
    40900
  • 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

    智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。 一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成与多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。 核心评测结论:* 三大亮点: * 基础推理扎实:在数学计算、逻辑推理、文本处理等基…

    2026年1月4日
    1.6K00
  • 豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测

    豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测 罗永浩的年度科技创新分享大会,刷屏全网。 复盘整场四个多小时的直播,观众集体回味讨论的焦点似乎就两个: 第一,不知是因为迟到了40多分钟,还是提前就有谋划,罗永浩现场宣布给所有购票观众退票。 第二,罗永浩这张网络名嘴和豆包AI之间的“人机舌战”竟成最大亮点,火爆出圈。 光看二位的辩题,就已火药味…

    2026年1月1日
    66000