
รายงานโดย XinZhiYuan
บรรณาธิการ: เถาจื่อ
【บทนำ XinZhiYuan】 เกณฑ์มาตรฐานระดับนรกที่ AI ทั่วโลกต่างพลาด ถูก GPT-5.5 บุกทะลวงเป็นรายแรก! เขียนโปรแกรมจากศูนย์แบบไม่เห็นโค้ด ใช้พลังคำนวณเชิงอนุมานสูงสุดจนผ่านฉลุย การทดสอบโค้ดแบบดั้งเดิมไร้ความหมายแล้ว การแข่งขันพลังคำนวณสู่ ASI เริ่มต้นอย่างเป็นทางการ
ความท้าทายการเขียนโปรแกรมระดับ “นรก” ถูก AI พิชิตแล้ว!
วันนี้ บนเกณฑ์มาตรฐาน ProgramBench ที่ AI ชั้นนำทั้งหมดทำคะแนนเป็นศูนย์ GPT-5.5 คว้าชัยชนะครั้งแรกสำเร็จ!

ในภาษาโปรแกรม C และ Python GPT-5.5 เวอร์ชัน xhigh เอาชนะ Opus 4.7 xhigh ได้อย่างราบคาบ

เมื่อไม่กี่วันก่อน Meta ร่วมกับ Stanford และ Harvard เปิดตัวเกณฑ์มาตรฐานการเขียนโปรแกรมใหม่ ProgramBench:
200 ข้อคำถาม อัตราผ่านของโมเดล AI ชั้นนำทั้งหมด — 0%
ไม่มีโมเดลใดสามารถแก้ไขได้แม้แต่ข้อเดียว ตอนนี้ GPT-5.5 กลายเป็นผู้เล่นแรกที่ทำลายสถิติ!


ข้อสอบปลายภาคของ AI ด้านการเขียนโปรแกรม: สร้างโปรแกรมใหม่จากศูนย์
ProgramBench ยากตรงไหน?
เกณฑ์มาตรฐานการเขียนโปรแกรมแบบดั้งเดิม ไม่ว่าจะเป็น SWE-bench หรือ HumanEval โดยพื้นฐานแล้วอยู่ในหมวด “แก้บั๊ก” หรือ “เติมฟังก์ชัน”
พวกมันให้โค้ดที่มีอยู่แล้วกับโมเดล บอกว่ามีปัญหาตรงไหน ให้มันไปแก้ไข
นี่คือการสอบแบบเปิดหนังสือ หรือแม้แต่แบบกึ่งเปิดหนังสือ แต่ ProgramBench แตกต่างอย่างสิ้นเชิง

มันให้ไฟล์ที่คอมไพล์แล้วและเอกสารหนึ่งชุด จากนั้นสั่ง: เขียนโปรแกรมนี้ใหม่ตั้งแต่ต้น
ไม่มีซอร์สโค้ดให้อ้างอิง ห้ามดีคอมไพล์ ห้ามค้นหาออนไลน์
200 ภารกิจนี้ครอบคลุมตั้งแต่เครื่องมือเล็กๆ อย่าง jq, ripgrep ไปจนถึงโปรเจกต์ใหญ่ๆ อย่าง FFmpeg, SQLite, คอมไพเลอร์ PHP
นักวิจัย OpenAI Noam Brown เคยกล่าวว่า “ถึงเวลาแล้วที่จะเลิกใช้การประเมินแบบ GQPA และนำมาตรฐานชุดใหม่มาใช้”

ตอนที่เปิดตัวครั้งแรก AI ที่ติดอันดับทั้งหมดล้มเหลวเกือบหมด ครั้งนี้ GPT-5.5 กลับมาเอาชนะได้สำเร็จ


GPT-5.5 ทำลายสถิติครั้งแรก: ข้อสอบเดียวกัน สองวิธีแก้ด้วย C และ Python
ภารกิจแรกที่ GPT-5.5 พิชิตคือ — cmatrix โปรแกรมเอฟเฟกต์ฝนดิจิทัลสไตล์ “The Matrix” บนเทอร์มินัลคลาสสิก
สิ่งที่ทำให้นักวิจัยประหลาดใจคือ GPT-5.5 สองระดับการอนุมาน high และ xhigh เลือกภาษาที่แตกต่างกันโดยสิ้นเชิงเพื่อแก้ปัญหาเดียวกัน
เวอร์ชัน high ใช้ภาษา C เวอร์ชัน xhigh เลือกใช้ Python

ผลลัพธ์สุดท้าย ทั้งคู่ผ่านการทดสอบพฤติกรรมทั้งหมด
กลยุทธ์ของ GPT-5.5 high ถือเป็นตำราเรียน: ใช้การทดสอบสำรวจ 10 รอบ ทดสอบการรวมกันของแฟล็กมากกว่า 40 แบบ ทำความเข้าใจพฤติกรรม CLI ของโปรแกรมต้นฉบับอย่างถ่องแท้
จากนั้นเขียนการใช้งานภาษา C ที่สมบูรณ์ในครั้งเดียว โดยใช้การปรับแต่งเพียง 5 ครั้งก็สำเร็จ
GPT-5.5 xhigh ทำได้ละเอียดยิ่งขึ้น ผ่านการสำรวจ 27 ขั้นตอน สำรวจทุกเส้นทาง CLI อย่างละเอียด จากนั้นเขียนการใช้งาน Python ที่สมบูรณ์ในครั้งเดียว

|

—|—
ข้อมูลสำคัญมาแล้ว
GPT-5.5 (medium) ที่ไม่ได้เปิดโหมดการอนุมานสูง ทำคะแนนได้ดีกว่า Claude Sonnet 4.6 เล็กน้อย
แต่เมื่อเปลี่ยนเป็นโหมด xhigh ประสิทธิภาพพุ่งทะยานทันที
ไม่เพียงแต่แก้ปัญหาได้เป็นครั้งแรก (อัตราผ่าน 0.5%) แต่ยังสร้างสถิติใหม่สำหรับภารกิจที่ “เกือบแก้ได้”: 26 ภารกิจผ่านการทดสอบหน่วยมากกว่า 95%
ที่น่าสังเกตยิ่งกว่าคือ GPT-5.5 xhigh เอาชนะคู่แข่งทั้งหมดในฮิสโตแกรมสะสมแบบเต็ม
ไม่ว่าจะเลือกตัวชี้วัดใด — คะแนนเฉลี่ย, ค่ามัธยฐาน, อัตราผ่าน ≥90%, อัตราผ่าน ≥50% — มันครองอันดับหนึ่งอย่างมั่นคง

178 ครั้งเรียกใช้ Opus 4.7 สะดุดกับบั๊กสองตัว
ในทางตรงกันข้าม ประสิทธิภาพของ Claude Opus 4.7 xhigh น่าเสียดาย
มันใช้เงิน $10.74 เรียกใช้ API 178 ครั้ง มากกว่า GPT-5.5 เวอร์ชันปกติที่ $1.04 และ 17 ครั้งถึง 10 เท่า
ผลลัพธ์: การทดสอบล้มเหลว 19 ครั้ง ประสิทธิภาพแย่ที่สุดในสนาม

สาเหตุความล้มเหลวของ Opus 4.7 ง่ายอย่างไม่คาดคิด:
บั๊ก 1: การแยกวิเคราะห์สีไวต่อตัวพิมพ์ใหญ่-เล็ก
โค้ดใช้ strcmp() แทน strcasecmp() การป้อน “GREEN” “Red” “BLUE” ทั้งหมดถูกตัดสินว่าไม่ถูกต้อง
ความแตกต่างเพียงฟังก์ชันเดียว ทำให้การทดสอบล้มเหลวถึง 11 ครั้ง
ในการสำรวจ 178 ขั้นตอน Opus ไม่เคยทดสอบการป้อนสีที่เป็นตัวพิมพ์ใหญ่หรือผสมกัน มันลองแค่ตัวพิมพ์เล็กและสีที่ไม่ถูกต้อง “purple”

บั๊ก 2: รหัสออกสำหรับสีที่ไม่ถูกต้องเขียนผิด
โปรแกรมต้นฉบับคืนค่า exit(0) เมื่อพบสีที่ไม่ถูกต้อง แต่ Opus เขียนเป็น exit(1)

น่าขันคือ Opus ในขั้นตอนการสำรวจสังเกตเห็นพฤติกรรมของโปรแกรมต้นฉบับ — ./executable -C purple; echo "exit=$?" แสดงผล exit=0 แต่เมื่อทดสอบการใช้งานของตัวเอง กลับไม่พบความแตกต่างนี้
ทำให้การทดสอบล้มเหลว 8 ครั้ง
อย่างไรก็ตาม Opus 4.7 มีจุดเด่นที่ควรกล่าวถึง: มันแสดงความสามารถด้านวิศวกรรมระบบที่น่าทึ่งในการจัดการกับไฟล์ส่วนหัว ncurses ที่หายไป
อีกสามโมเดลเมื่อพบว่า ncurses.h หายไป ก็เปลี่ยนไปใช้ลำดับ Escape ANSI แทน

Opus 4.7 ใช้เวลาประมาณ 20 ขั้นตอนในการสืบสวนเชิงลึก ใช้ ldconfig -p ค้นหาไฟล์ .so ที่รันไทม์ ใช้ nm -D ตรวจสอบสัญลักษณ์ที่ส่งออก จากนั้นเขียนคำประกาศไฟล์ส่วนหัว 106 บรรทัดด้วยตนเอง และลิงก์ไลบรารีไดนามิกโดยตรง
นี่คือวิศวกรรมสร้างสรรค์อย่างแท้จริง แต่ไม่ได้นำมาซึ่งผลลัพธ์ที่ดีกว่า
**

**
ยังมีอีก 199 ข้อที่ยังไม่ได้แก้
การปรากฏตัวของ ProgramBench ถือเป็นจุดเริ่มต้นของยุคใหม่ของเกณฑ์มาตรฐานการเขียนโปรแกรม
อัตราผ่านของ SWE-bench ถูกผลักดันไปถึง 88.7% บน GPQA AI เอาชนะ PhD ส่วนใหญ่ได้แล้ว
มาตรฐานการประเมินเหล่านี้กำลัง “ละลาย” ในอัตราที่น่าตกใจ คะแนนสูงขึ้นเรื่อยๆ ความแตกต่างน้อยลงเรื่อยๆ
และ ProgramBench 200 ข้อ จนถึงตอนนี้มีเพียง 1 ข้อที่ถูกแก้ อัตราผ่าน: 0.5%

ที่สำคัญกว่านั้น การทำลายสถิติครั้งนี้เผยให้เห็นแนวโน้มสำคัญ: “พลังคำนวณเชิงอนุมาน” กำลังกลายเป็นตัวแปรหลักของความสามารถ AI ด้านการเขียนโปรแกรม
GPT-5.5 ในโหมดการอนุมานเริ่มต้นทำงานได้ปานกลาง แต่โหมดการอนุมานสูงนำมาซึ่งการก้าวกระโดดเชิงคุณภาพโดยตรง
นี่หมายความว่า ไม่ใช่โมเดลไม่ฉลาดพอ แต่ก่อนหน้านี้ให้เวลามัน “คิด” ไม่เพียงพอ
ใน 200 ข้อของ ProgramBench ยังมีอีก 199 ข้อที่รอความท้าทาย


จากศูนย์ถึงหนึ่ง ไม่ใช่แค่จุดเริ่มต้น
ย้อนดูทุกช่วงเวลา “ทำลายศูนย์ครั้งแรก” ในประวัติศาสตร์การพัฒนา AI —
AlphaGo เอาชนะผู้เล่นอาชีพครั้งแรก, GPT-4 ผ่านการสอบเนติบัณฑิตครั้งแรก, o1 ทำคะแนนในข้อสอบคณิตศาสตร์โอลิมปิกครั้งแรก
“จากศูนย์ถึงหนึ่ง” ไม่เคยเป็นจุดเริ่มต้นของความก้าวหน้าเชิงเส้น แต่เป็นสัญญาณของการระเบิดแบบเอกซ์โพเนนเชียล
กฎ Scaling Law ของพลังคำนวณเชิงอนุมานที่ Noam Brown เสนอ ได้รับการยืนยันที่ชัดเจนที่สุดจนถึงปัจจุบันบน ProgramBench:
ฐาน GPT-5.5 เดียวกัน โหมด medium แทบจะส่งกระดานเปล่า โหมด high ได้คะแนนเต็ม โหมด xhigh ชนะขาดลอย
ความฉลาดไม่ใช่ค่าคงที่อีกต่อไป แต่เป็นฟังก์ชันของพลังคำนวณ
นี่หมายความว่าอะไร? หมายความว่าเส้นทางสู่ ASI อาจไม่ต้องรอการปฏิวัติสถาปัตยกรรมรุ่นต่อไป
ตราบใดที่พลังคำนวณเชิงอนุมานขยายตัวอย่างต่อเนื่อง ตราบใดที่ Scaling Law ไม่ชนกำแพง
วันนี้โมเดลที่สามารถสร้าง cmatrix ขึ้นมาใหม่บน ProgramBench พรุ่งนี้อาจสร้าง SQLite ขึ้นมาใหม่ มะรืนนี้อาจสร้างเคอร์เนล Linux ทั้งหมดขึ้นมาใหม่
ข้อมูลอ้างอิง:
https://x.com/polynoamial/status/2054255862441812099
https://programbench.com/blog/gpt-5-5-first-solve/
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34672
