ProgramBench

  • GPT-5.5首破地狱级编程基准,零代码重建程序碾压Opus 4.7

    「地狱级」编程挑战,终于被AI征服了! 今天,在ProgramBench这个所有前沿AI都交出白卷的基准上,GPT-5.5成功拿下首杀! 在C和Python两种不同编程语言上,GPT-5.5 xhigh版本完全碾压了Opus 4.7 xhigh。 就在几天前,Meta联手斯坦福、哈佛推出了全新的ProgramBench编程基准: 200道题目,所有前沿AI模…

    4小时前
    2500