ProgramBench

大模型评测

GPT-5.5首破地狱级编程基准，零代码重建程序碾压Opus 4.7

「地狱级」编程挑战，终于被AI征服了！今天，在ProgramBench这个所有前沿AI都交出白卷的基准上，GPT-5.5成功拿下首杀！在C和Python两种不同编程语言上，GPT-5.5 xhigh版本完全碾压了Opus 4.7 xhigh。就在几天前，Meta联手斯坦福、哈佛推出了全新的ProgramBench编程基准： 200道题目，所有前沿AI模…

4小时前
25000