GPT-5.5 ทะลุเกณฑ์การเขียนโปรแกรมระดับนรกครั้งแรก สร้างโปรแกรมใหม่โดยไม่ต้องใช้โค้ด เอาชนะ Opus 4.7

3 hours ago • การประเมินโมเดลขนาดใหญ่ • 11 views

รายงานโดย XinZhiYuan

บรรณาธิการ: เถาจื่อ

【บทนำ XinZhiYuan】 เกณฑ์มาตรฐานระดับนรกที่ AI ทั่วโลกต่างพลาด ถูก GPT-5.5 บุกทะลวงเป็นรายแรก! เขียนโปรแกรมจากศูนย์แบบไม่เห็นโค้ด ใช้พลังคำนวณเชิงอนุมานสูงสุดจนผ่านฉลุย การทดสอบโค้ดแบบดั้งเดิมไร้ความหมายแล้ว การแข่งขันพลังคำนวณสู่ ASI เริ่มต้นอย่างเป็นทางการ

ความท้าทายการเขียนโปรแกรมระดับ “นรก” ถูก AI พิชิตแล้ว!

วันนี้ บนเกณฑ์มาตรฐาน ProgramBench ที่ AI ชั้นนำทั้งหมดทำคะแนนเป็นศูนย์ GPT-5.5 คว้าชัยชนะครั้งแรกสำเร็จ!

ในภาษาโปรแกรม C และ Python GPT-5.5 เวอร์ชัน xhigh เอาชนะ Opus 4.7 xhigh ได้อย่างราบคาบ

เมื่อไม่กี่วันก่อน Meta ร่วมกับ Stanford และ Harvard เปิดตัวเกณฑ์มาตรฐานการเขียนโปรแกรมใหม่ ProgramBench:

200 ข้อคำถาม อัตราผ่านของโมเดล AI ชั้นนำทั้งหมด — 0%

ไม่มีโมเดลใดสามารถแก้ไขได้แม้แต่ข้อเดียว ตอนนี้ GPT-5.5 กลายเป็นผู้เล่นแรกที่ทำลายสถิติ!

ข้อสอบปลายภาคของ AI ด้านการเขียนโปรแกรม: สร้างโปรแกรมใหม่จากศูนย์

ProgramBench ยากตรงไหน?

เกณฑ์มาตรฐานการเขียนโปรแกรมแบบดั้งเดิม ไม่ว่าจะเป็น SWE-bench หรือ HumanEval โดยพื้นฐานแล้วอยู่ในหมวด “แก้บั๊ก” หรือ “เติมฟังก์ชัน”

พวกมันให้โค้ดที่มีอยู่แล้วกับโมเดล บอกว่ามีปัญหาตรงไหน ให้มันไปแก้ไข

นี่คือการสอบแบบเปิดหนังสือ หรือแม้แต่แบบกึ่งเปิดหนังสือ แต่ ProgramBench แตกต่างอย่างสิ้นเชิง

มันให้ไฟล์ที่คอมไพล์แล้วและเอกสารหนึ่งชุด จากนั้นสั่ง: เขียนโปรแกรมนี้ใหม่ตั้งแต่ต้น

ไม่มีซอร์สโค้ดให้อ้างอิง ห้ามดีคอมไพล์ ห้ามค้นหาออนไลน์

200 ภารกิจนี้ครอบคลุมตั้งแต่เครื่องมือเล็กๆ อย่าง jq, ripgrep ไปจนถึงโปรเจกต์ใหญ่ๆ อย่าง FFmpeg, SQLite, คอมไพเลอร์ PHP

นักวิจัย OpenAI Noam Brown เคยกล่าวว่า “ถึงเวลาแล้วที่จะเลิกใช้การประเมินแบบ GQPA และนำมาตรฐานชุดใหม่มาใช้”

ตอนที่เปิดตัวครั้งแรก AI ที่ติดอันดับทั้งหมดล้มเหลวเกือบหมด ครั้งนี้ GPT-5.5 กลับมาเอาชนะได้สำเร็จ

GPT-5.5 ทำลายสถิติครั้งแรก: ข้อสอบเดียวกัน สองวิธีแก้ด้วย C และ Python

ภารกิจแรกที่ GPT-5.5 พิชิตคือ — cmatrix โปรแกรมเอฟเฟกต์ฝนดิจิทัลสไตล์ “The Matrix” บนเทอร์มินัลคลาสสิก

สิ่งที่ทำให้นักวิจัยประหลาดใจคือ GPT-5.5 สองระดับการอนุมาน high และ xhigh เลือกภาษาที่แตกต่างกันโดยสิ้นเชิงเพื่อแก้ปัญหาเดียวกัน

เวอร์ชัน high ใช้ภาษา C เวอร์ชัน xhigh เลือกใช้ Python

ผลลัพธ์สุดท้าย ทั้งคู่ผ่านการทดสอบพฤติกรรมทั้งหมด

กลยุทธ์ของ GPT-5.5 high ถือเป็นตำราเรียน: ใช้การทดสอบสำรวจ 10 รอบ ทดสอบการรวมกันของแฟล็กมากกว่า 40 แบบ ทำความเข้าใจพฤติกรรม CLI ของโปรแกรมต้นฉบับอย่างถ่องแท้

จากนั้นเขียนการใช้งานภาษา C ที่สมบูรณ์ในครั้งเดียว โดยใช้การปรับแต่งเพียง 5 ครั้งก็สำเร็จ

GPT-5.5 xhigh ทำได้ละเอียดยิ่งขึ้น ผ่านการสำรวจ 27 ขั้นตอน สำรวจทุกเส้นทาง CLI อย่างละเอียด จากนั้นเขียนการใช้งาน Python ที่สมบูรณ์ในครั้งเดียว

—|—

ข้อมูลสำคัญมาแล้ว

GPT-5.5 (medium) ที่ไม่ได้เปิดโหมดการอนุมานสูง ทำคะแนนได้ดีกว่า Claude Sonnet 4.6 เล็กน้อย

แต่เมื่อเปลี่ยนเป็นโหมด xhigh ประสิทธิภาพพุ่งทะยานทันที

ไม่เพียงแต่แก้ปัญหาได้เป็นครั้งแรก (อัตราผ่าน 0.5%) แต่ยังสร้างสถิติใหม่สำหรับภารกิจที่ “เกือบแก้ได้”: 26 ภารกิจผ่านการทดสอบหน่วยมากกว่า 95%

ที่น่าสังเกตยิ่งกว่าคือ GPT-5.5 xhigh เอาชนะคู่แข่งทั้งหมดในฮิสโตแกรมสะสมแบบเต็ม

ไม่ว่าจะเลือกตัวชี้วัดใด — คะแนนเฉลี่ย, ค่ามัธยฐาน, อัตราผ่าน ≥90%, อัตราผ่าน ≥50% — มันครองอันดับหนึ่งอย่างมั่นคง

178 ครั้งเรียกใช้ Opus 4.7 สะดุดกับบั๊กสองตัว

ในทางตรงกันข้าม ประสิทธิภาพของ Claude Opus 4.7 xhigh น่าเสียดาย

มันใช้เงิน $10.74 เรียกใช้ API 178 ครั้ง มากกว่า GPT-5.5 เวอร์ชันปกติที่ $1.04 และ 17 ครั้งถึง 10 เท่า

ผลลัพธ์: การทดสอบล้มเหลว 19 ครั้ง ประสิทธิภาพแย่ที่สุดในสนาม

สาเหตุความล้มเหลวของ Opus 4.7 ง่ายอย่างไม่คาดคิด:

บั๊ก 1: การแยกวิเคราะห์สีไวต่อตัวพิมพ์ใหญ่-เล็ก

โค้ดใช้ strcmp() แทน strcasecmp() การป้อน “GREEN” “Red” “BLUE” ทั้งหมดถูกตัดสินว่าไม่ถูกต้อง

ความแตกต่างเพียงฟังก์ชันเดียว ทำให้การทดสอบล้มเหลวถึง 11 ครั้ง

ในการสำรวจ 178 ขั้นตอน Opus ไม่เคยทดสอบการป้อนสีที่เป็นตัวพิมพ์ใหญ่หรือผสมกัน มันลองแค่ตัวพิมพ์เล็กและสีที่ไม่ถูกต้อง “purple”

บั๊ก 2: รหัสออกสำหรับสีที่ไม่ถูกต้องเขียนผิด

โปรแกรมต้นฉบับคืนค่า exit(0) เมื่อพบสีที่ไม่ถูกต้อง แต่ Opus เขียนเป็น exit(1)

น่าขันคือ Opus ในขั้นตอนการสำรวจสังเกตเห็นพฤติกรรมของโปรแกรมต้นฉบับ — ./executable -C purple; echo "exit=$?" แสดงผล exit=0 แต่เมื่อทดสอบการใช้งานของตัวเอง กลับไม่พบความแตกต่างนี้

ทำให้การทดสอบล้มเหลว 8 ครั้ง

อย่างไรก็ตาม Opus 4.7 มีจุดเด่นที่ควรกล่าวถึง: มันแสดงความสามารถด้านวิศวกรรมระบบที่น่าทึ่งในการจัดการกับไฟล์ส่วนหัว ncurses ที่หายไป

อีกสามโมเดลเมื่อพบว่า ncurses.h หายไป ก็เปลี่ยนไปใช้ลำดับ Escape ANSI แทน

Opus 4.7 ใช้เวลาประมาณ 20 ขั้นตอนในการสืบสวนเชิงลึก ใช้ ldconfig -p ค้นหาไฟล์ .so ที่รันไทม์ ใช้ nm -D ตรวจสอบสัญลักษณ์ที่ส่งออก จากนั้นเขียนคำประกาศไฟล์ส่วนหัว 106 บรรทัดด้วยตนเอง และลิงก์ไลบรารีไดนามิกโดยตรง

นี่คือวิศวกรรมสร้างสรรค์อย่างแท้จริง แต่ไม่ได้นำมาซึ่งผลลัพธ์ที่ดีกว่า

ยังมีอีก 199 ข้อที่ยังไม่ได้แก้

การปรากฏตัวของ ProgramBench ถือเป็นจุดเริ่มต้นของยุคใหม่ของเกณฑ์มาตรฐานการเขียนโปรแกรม

อัตราผ่านของ SWE-bench ถูกผลักดันไปถึง 88.7% บน GPQA AI เอาชนะ PhD ส่วนใหญ่ได้แล้ว

มาตรฐานการประเมินเหล่านี้กำลัง “ละลาย” ในอัตราที่น่าตกใจ คะแนนสูงขึ้นเรื่อยๆ ความแตกต่างน้อยลงเรื่อยๆ

และ ProgramBench 200 ข้อ จนถึงตอนนี้มีเพียง 1 ข้อที่ถูกแก้ อัตราผ่าน: 0.5%

ที่สำคัญกว่านั้น การทำลายสถิติครั้งนี้เผยให้เห็นแนวโน้มสำคัญ: “พลังคำนวณเชิงอนุมาน” กำลังกลายเป็นตัวแปรหลักของความสามารถ AI ด้านการเขียนโปรแกรม

GPT-5.5 ในโหมดการอนุมานเริ่มต้นทำงานได้ปานกลาง แต่โหมดการอนุมานสูงนำมาซึ่งการก้าวกระโดดเชิงคุณภาพโดยตรง

นี่หมายความว่า ไม่ใช่โมเดลไม่ฉลาดพอ แต่ก่อนหน้านี้ให้เวลามัน “คิด” ไม่เพียงพอ

ใน 200 ข้อของ ProgramBench ยังมีอีก 199 ข้อที่รอความท้าทาย

จากศูนย์ถึงหนึ่ง ไม่ใช่แค่จุดเริ่มต้น

ย้อนดูทุกช่วงเวลา “ทำลายศูนย์ครั้งแรก” ในประวัติศาสตร์การพัฒนา AI —

AlphaGo เอาชนะผู้เล่นอาชีพครั้งแรก, GPT-4 ผ่านการสอบเนติบัณฑิตครั้งแรก, o1 ทำคะแนนในข้อสอบคณิตศาสตร์โอลิมปิกครั้งแรก

“จากศูนย์ถึงหนึ่ง” ไม่เคยเป็นจุดเริ่มต้นของความก้าวหน้าเชิงเส้น แต่เป็นสัญญาณของการระเบิดแบบเอกซ์โพเนนเชียล

กฎ Scaling Law ของพลังคำนวณเชิงอนุมานที่ Noam Brown เสนอ ได้รับการยืนยันที่ชัดเจนที่สุดจนถึงปัจจุบันบน ProgramBench:

ฐาน GPT-5.5 เดียวกัน โหมด medium แทบจะส่งกระดานเปล่า โหมด high ได้คะแนนเต็ม โหมด xhigh ชนะขาดลอย

ความฉลาดไม่ใช่ค่าคงที่อีกต่อไป แต่เป็นฟังก์ชันของพลังคำนวณ

นี่หมายความว่าอะไร? หมายความว่าเส้นทางสู่ ASI อาจไม่ต้องรอการปฏิวัติสถาปัตยกรรมรุ่นต่อไป

ตราบใดที่พลังคำนวณเชิงอนุมานขยายตัวอย่างต่อเนื่อง ตราบใดที่ Scaling Law ไม่ชนกำแพง

วันนี้โมเดลที่สามารถสร้าง cmatrix ขึ้นมาใหม่บน ProgramBench พรุ่งนี้อาจสร้าง SQLite ขึ้นมาใหม่ มะรืนนี้อาจสร้างเคอร์เนล Linux ทั้งหมดขึ้นมาใหม่

ข้อมูลอ้างอิง:
https://x.com/polynoamial/status/2054255862441812099
https://programbench.com/blog/gpt-5-5-first-solve/

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34672

Like (0)

0 0

อดีตหัวหน้าทีม Qwen ของ Alibaba เปิดตัว AI Lab ใหม่ มูลค่าประเมินอาจสูงถึง 2 พันล้านดอลลาร์สหรัฐ โดย Gaorong และ Sequoia ได้ติดต่อแล้ว

Previous 3 hours ago

MinCPM-V 4.6 โมเดลมัลติโมดัลขนาด 1.3B จากบริษัท 面壁智能 เปิดตัวแล้ว ประสิทธิภาพเหนือกว่า Qwen และ Gemma สามารถรันบนสมาร์ทโฟนทุกเครื่อง

Next 3 hours ago

การประเมินโมเดลขนาดใหญ่

AI เครื่องมือวิจัยมาแล้ว? Frontier-Eng ให้ Agent ปรับแต่งการทดลองอัตโนมัติ บอกลาฝันร้ายการปรับพารามิเตอร์

งานวิจัยสามารถเร่งกระบวนการทั้งหมดด้วย AI ได้หรือไม่? ในช่วงสองปีที่ผ่านมา Auto Research ได้รับความหวังอย่างมาก: ตั้งแต่การอ่านเอกสาร การกำหนดทิศทาง ไปจนถึงการเขียนโค้ด การดำเนินกา…

1 day ago
52000
แก้ไขบั๊กฮาร์ดแวร์ ทำไม AI Agent ถึง “ปรับตัวไม่ได้”? เกณฑ์ชี้วัด HWE-Bench จากมหาวิทยาลัยปักกิ่งเผยความจริงอันโหดร้าย

“ภารกิจด้านฮาร์ดแวร์ได้เปิดเผยความแตกต่างด้านประสิทธิภาพที่เกณฑ์มาตรฐานซอฟต์แวร์ได้บีบอัดไว้—บน SWE-bench โมเดลทั้งหมดถูกอัดแน่นอยู่ในแถบแคบๆ 73% ถึง 81% ในขณะที่บน HWE-Bench โมเดล…

การประเมินโมเดลขนาดใหญ่ 2026年5月2日
62000
การประเมินโมเดลขนาดใหญ่

วงการ AI สั่นสะเทือน! การทดสอบ AGI ที่ยากที่สุดในโลก ARC-AGI-3 เปิดตัวแล้ว มนุษย์ผ่านได้เต็มคะแนน แต่โมเดลที่แข็งแกร่งที่สุดอย่าง Opus 4.6 ได้เพียง 0.2%

วันนี้ ผลการทดสอบมาตรฐานที่ชื่อว่า ARC-AGI-3 ได้รับการเปิดเผย และ “ช่องว่างระหว่างมนุษย์กับเครื่อง” อันมหาศาลที่ปรากฏออกมา ได้ดึงดูดความสนใจอย่างกว้างขวางในชุมชนวิจัย A…

2026年3月27日
211000
การประเมินโมเดลขนาดใหญ่

Ali Qwen3.5-27B ทดสอบจริง: โมเดลหนาแน่น 27 พันล้านพารามิเตอร์ ติดท็อป 10, ต้นทุนลดฮวบ 59%!

หลังจากเปิดตัวโมเดลแรกของซีรีส์ Qwen3.5 คือ Qwen3.5-Plus แล้ว อาลีบาบาก็ได้เปิดตัวซีรีส์โมเดลขนาดกลางหลังเทศกาลตรุษจีน Qwen3.5-27B เป็นโมเดลแบบหนาแน่น (Dense Model) ในซีรีส์นี้ โดย…

2026年2月27日
324000
การประเมินโมเดลขนาดใหญ่

AI เร่งแซงมนุษย์: เส้นโค้งเลขชี้กำลังเผยเวลานับถอยหลังสู่การระเบิดของปัญญาประดิษฐ์

สามวันก่อน หนังสือพิมพ์นิวยอร์กไทมส์ตีพิมพ์บทความหนึ่ง มันไม่ได้ขึ้นเทรนด์ทวิตเตอร์ ไม่ได้ขึ้นอันดับหนึ่งบน Hacker News แม้แต่การแปลภาษาจีนก็มีน้อยมาก แต่นี่อาจเป็นบทความที่สำคัญที…

2026年4月21日
107000

GPT-5.5 ทะลุเกณฑ์การเขียนโปรแกรมระดับนรกครั้งแรก สร้างโปรแกรมใหม่โดยไม่ต้องใช้โค้ด เอาชนะ Opus 4.7

ยังมีอีก 199 ข้อที่ยังไม่ได้แก้

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

AI เครื่องมือวิจัยมาแล้ว? Frontier-Eng ให้ Agent ปรับแต่งการทดลองอัตโนมัติ บอกลาฝันร้ายการปรับพารามิเตอร์

Ali Qwen3.5-27B ทดสอบจริง: โมเดลหนาแน่น 27 พันล้านพารามิเตอร์ ติดท็อป 10, ต้นทุนลดฮวบ 59%!

AI เร่งแซงมนุษย์: เส้นโค้งเลขชี้กำลังเผยเวลานับถอยหลังสู่การระเบิดของปัญญาประดิษฐ์