GPT-5.5 และ Claude Opus 4.7 ต่างล้มเหลวในการทดสอบ ARC-AGI-3 โดยทำคะแนนได้ไม่ถึง 1%: ภาพลวงตาของ “ความฉลาด” ในโมเดลภาษาขนาดใหญ่ถูกเปิดโปงหรือไม่?

1 hour ago • การประเมินโมเดลขนาดใหญ่ • 8 views

GPT-5.5 และ Claude Opus 4.7 ต่างล้มเหลวในการทดสอบ ARC-AGI-3 โดยทำคะแนนได้ไม่ถึง 1%: ภาพลวงตาของ "ความฉลาด" ในโมเดลภาษาขนาดใหญ่ถูกเปิดโปงหรือไม่?

ในยุคที่โมเดลภาษาขนาดใหญ่แข่งขันกันอย่างดุเดือด ดูเหมือนผู้คนจะคุ้นเคยกับความแม่นยำเกือบสมบูรณ์แบบที่พวกเขาทำได้ในตารางอันดับต่างๆ อย่างไรก็ตาม ในการทดสอบมาตรฐานที่เรียกว่า ARC-AGI-3 โมเดลชั้นนำที่ถูกกล่าวขานว่า “ร้อนแรงที่สุด” ในปัจจุบันสองรุ่น ได้แก่ GPT-5.5 ของ OpenAI และ Claude Opus 4.7 ของ Anthropic กลับประสบ “ความพ่ายแพ้” อย่างหนัก

เมื่อเร็วๆ นี้ ทาง ARC Prize ได้เผยแพร่รายงานวิเคราะห์เชิงลึกเกี่ยวกับโมเดลชั้นนำทั้งสองนี้ ผลลัพธ์ที่ได้ทำให้หลายคนต้องตกตะลึง: เมื่อต้องรับมือกับงานเชิงตรรกะที่ไม่เคยเห็นมาก่อน คะแนนของทั้งสองรุ่นต่ำกว่า 1% โดยเฉพาะอย่างยิ่ง GPT-5.5 ได้คะแนน 0.43% ในขณะที่ Claude Opus 4.7 ได้เพียง 0.18%

นั่นหมายความว่า แม้จะมีพารามิเตอร์นับแสนล้านและพลังการคำนวณที่แทบไม่มีขีดจำกัด โมเดลเหล่านี้กลับมีประสิทธิภาพในการจัดการกับ “สภาพแวดล้อมเชิงตรรกะแบบใหม่” ต่ำกว่าเด็กอายุ 6 ขวบเสียอีก

เกิดอะไรขึ้นกันแน่?

ARC-AGI-3: “ศิลาฤกษ์แห่งความฉลาด” ที่แท้จริง

เพื่อทำความเข้าใจผลลัพธ์นี้ ก่อนอื่นต้องรู้จัก ARC-AGI-3 เสียก่อน นี่คือเวอร์ชันล่าสุดของชุดการทดสอบมาตรฐานที่สร้างโดย François Chollet บิดาแห่ง Keras ซึ่งเปิดตัวอย่างเป็นทางการเมื่อเดือนมีนาคมที่ผ่านมา

François Chollet ระบุในตอนนั้นว่า ระบบปัญญาประดิษฐ์จะถือว่า “พิชิต” ARC-AGI-3 ได้อย่างแท้จริงก็ต่อเมื่อมันสามารถมีประสิทธิภาพในการดำเนินการเทียบเท่าหรือเหนือกว่ามนุษย์ในการเผชิญกับสภาพแวดล้อมทั้งหมดเป็นครั้งแรก

จากผลการทดสอบกับมนุษย์จำนวนมาก: โดยไม่ต้องมีการฝึกฝนล่วงหน้าหรือคำแนะนำใดๆ มนุษย์สามารถแก้ปัญหาทั้งหมดในสภาพแวดล้อมเหล่านี้ได้ 100% ในการเผชิญหน้าครั้งแรก ในทางตรงกันข้าม โมเดล AI เชิงอนุมานชั้นนำทั้งหมดในปัจจุบันทำคะแนนในการทดสอบนี้ต่ำกว่า 1%

ในเวลานั้น GPT-5.5 ของ OpenAI และ Claude Opus 4.7 ของ Anthropic ยังไม่ได้เปิดตัว เมื่อมองย้อนกลับไป โมเดลทั้งสองนี้ก็ไม่สามารถหลีกหนีชะตากรรมนี้ได้เช่นกัน

โดยเฉพาะอย่างยิ่ง ARC-AGI-3 ประกอบด้วยสภาพแวดล้อมใหม่ทั้งหมด 135 แบบ แต่ละแบบได้รับการออกแบบอย่างพิถีพิถันโดยมนุษย์ เพื่อทดสอบความสามารถของโมเดลในการรับมือกับ “สิ่งที่ไม่รู้จัก”

สำหรับผู้ทดสอบ ไม่ว่าจะเป็นมนุษย์หรือ AI เมื่อเข้าสู่สภาพแวดล้อมแล้วจะไม่ได้รับคำแนะนำใดๆ ในการเล่น เพื่อที่จะก้าวหน้าและบรรลุความสำเร็จ จำเป็นต้องทำสิ่งต่อไปนี้:

สำรวจอินเทอร์เฟซที่ไม่รู้จัก
อนุมานกฎจากผลตอบรับที่เบาบาง (สร้างแบบจำลองโลก)
ตั้งสมมติฐานและตรวจสอบ
ฟื้นตัวจากความผิดพลาด
ถ่ายทอดประสบการณ์ไปยังด่านต่อไป (การเรียนรู้อย่างต่อเนื่อง)

การสร้างสภาพแวดล้อมแต่ละแบบนั้นจงใจตัดความรู้ทางวัฒนธรรมที่โมเดลมักจะพึ่งพาออกไป เหลือไว้เพียง “ความสามารถในการคิดเชิงนามธรรมล้วนๆ”

กล่าวอีกนัยหนึ่ง สามารถเข้าใจ ARC-AGI-3 ได้ว่าเป็นชุดการทดสอบร่วมขั้นต่ำในด้าน “ความแปลกใหม่ ความคลุมเครือ การวางแผน และความสามารถในการปรับตัว” ซึ่งสิ่งเหล่านี้คือข้อกำหนดหลักของงานในโลกแห่งความเป็นจริงที่มีต่อตัวแทนอัจฉริยะ ดังนั้น ARC-AGI-3 จึงได้รับการยอมรับว่าเป็นการทดสอบที่ใกล้เคียงกับ “แก่นแท้ของความฉลาดของมนุษย์” มากที่สุดในปัจจุบัน

สามรูปแบบความล้มเหลวเบื้องหลังการ “พ่ายแพ้” ของโมเดลชั้นนำ

ครั้งนี้ คะแนนของ GPT-5.5 และ Claude Opus 4.7 ต่ำกว่า 1% ซึ่งเป็นผลลัพธ์ที่ “น่าเจ็บปวด” อย่างแน่นอน แต่เมื่อเทียบกับคะแนนแล้ว การสำรวจสาเหตุของความล้มเหลวเบื้องหลังดูเหมือนจะสำคัญกว่า

ทีมวิจัยของ ARC Prize ได้วิเคราะห์ร่องรอยการทำงานที่สมบูรณ์ 160 ชุด (ครอบคลุมทุกขั้นตอนการดำเนินการและกระบวนการอนุมานของโมเดล) และสรุปสาเหตุหลักสามประการที่ทำให้โมเดล “ล่มสลาย”:

หนึ่ง ผลตอบรับเฉพาะจุดที่แท้จริง แบบจำลองโลกที่ปลอมแปลง

โมเดลสามารถเข้าใจว่าขั้นตอนใดทำให้เกิดการเปลี่ยนแปลง (ผลตอบรับเฉพาะจุด) แต่ไม่สามารถแปลงความสัมพันธ์เชิงสาเหตุนี้เป็นชุดกฎเกณฑ์ระดับโลกที่ครอบคลุมได้

นี่เป็นสาเหตุที่ชัดเจนที่สุด ตัวอย่างเช่น ในงานที่ต้องหมุนวัตถุเพื่อให้ตรงกับช่องเสียบ โมเดลสามารถระบุกฎเฉพาะจุดที่ว่า “เมื่อกดปุ่มนี้ วัตถุจะหมุน” ได้ แต่มันไม่สามารถยกระดับตรรกะนี้เป็นเป้าหมายระดับโลกและอนุมานต่อไปได้ว่า “การหมุนมีผลต่อผลลัพธ์ ดังนั้นฉันจึงต้องปรับทิศทางของวัตถุก่อนดำเนินการเพื่อให้ตรงกับเป้าหมาย”

กล่าวอีกนัยหนึ่ง ความล้มเหลวของโมเดลไม่ได้เกิดจาก “การมองไม่เห็น” แต่เป็นเพราะไม่สามารถรวมปรากฏการณ์ที่สังเกตได้เข้าเป็นแบบจำลองโลกที่สมบูรณ์

ตัวอย่างเช่น Claude Opus 4.7 ในการทำงาน “cd82” ในขั้นตอนที่ 4 รู้แล้วว่าการดำเนินการ “ACTION3” สามารถหมุนภาชนะได้ จากนั้นในขั้นตอนที่ 6 ก็สังเกตเห็นว่าการดำเนินการ “ACTION5” สามารถเทหรือจุ่มสีได้ อย่างไรก็ตาม มันไม่สามารถแปลงความรู้ที่กระจัดกระจายนี้เป็นกลยุทธ์เชิงตรรกะที่สมบูรณ์ได้ นั่นคือ “ปรับทิศทางของถังก่อน จากนั้นจึงจุ่มสี เพื่อสร้างภาพเป้าหมายที่มุมซ้ายบนขึ้นมาใหม่”

Claude Opus 4.7 เข้าใจว่า ACTION3 หมุนวัตถุ แต่ไม่เข้าใจแนวคิดของเกม

อีกตัวอย่างหนึ่ง ในงาน “cn04” แม้ว่า Claude Opus 4.7 จะพบตรรกะปฏิสัมพันธ์ “หมุนแล้ววาง” ที่ประสบความสำเร็จ (ซึ่งเป็นสมมติฐานที่ถูกต้อง ดูขั้นตอนที่ 23) แต่ต่อมากลับตกอยู่ใน误区ของการไล่ตาม “การซ้อนทับรูปร่างโดยรวม” (สมมติฐานที่ผิด) และเบี่ยงเบนไปจากเป้าหมายเพื่อไล่ตามภาพลวงตาของ “ความคืบหน้าในแถวบนสุด” (ดูขั้นตอนที่ 60)

สอง ความคิดเชิงนามธรรมที่ถูก “จับเป็นตัวประกัน” โดยข้อมูลฝึกฝน

โมเดลเข้าใจผิดเกี่ยวกับสภาพแวดล้อมปัจจุบัน เนื่องจากอิทธิพลของข้อมูลฝึกฝน พวกมันจึงเข้าใจผิดว่างาน “ARC-AGI-3” ใหม่นี้เป็นการเล่นเกมที่รู้จักกันดีอีกเกมหนึ่ง

รูปแบบความล้มเหลวนี้เกิดจาก “การทำให้เป็นนามธรรมที่ผิดพลาด” ของโมเดลต่อข้อมูลฝึกฝน ในการทำงานหลายครั้ง โมเดลพยายามอธิบายกลไกที่ไม่คุ้นเคยซ้ำแล้วซ้ำเล่าโดยการจับคู่กับเกมที่รู้จัก ซึ่งรวมถึง: “Tetris” “Frogger” “Sokoban” “Powder Toy” “ระบายสี” “Breakout” เป็นต้น

แม้ว่าการดึงแนวคิดนามธรรมจากความรู้พื้นฐานหลักอาจช่วยในการแก้ปัญหาในทางทฤษฎี แต่การเปรียบเทียบตามตัวอักษรจากข้อมูลฝึกฝนเหล่านี้กลับ “จับเป็นตัวประกัน” การเลือกการกระทำของโมเดล และกลายเป็น: ความคล้ายคลึงทางสายตาเฉพาะจุด นำไปสู่การเข้าใจผิดว่าเป็นกฎของเกมที่สมบูรณ์ และทิศทางการกระทำถูกนำออกนอกเส้นทาง

ตัวอย่างเช่น ในงาน “cd82” ความคิดของ GPT-5.5 ถูกยึดติดกับกลไกของทรายดูด การจำลองทางฟิสิกส์ หรือเกม “ระบายสี” ในขณะที่ในงาน “ls20” มันเข้าใจผิดว่าตรรกะที่ควรเป็นการกดปุ่มผสมเป็นเกม “Breakout”

สาม ผ่านด่านไปได้ แต่ไม่ได้เรียนรู้กฎ

โมเดลผ่านด่านใดด่านหนึ่งโดยบังเอิญ แต่ไม่สามารถใช้สัญญาณรางวัลที่ประสบความสำเร็จนั้นเพื่อเสริมสร้างและดำเนินการที่ถูกต้องต่อไป ซึ่งแสดงให้เห็นว่า “การผ่านด่านไม่เท่ากับความเข้าใจ”

บันทึกสองครั้งของ Claude Opus 4.7 แสดงให้เห็นประเด็นนี้ได้ดี

ในงาน “ka59” Claude Opus 4.7 ใช้ 37 ขั้นตอนในการผ่าน Level 1 แต่ความเข้าใจเกี่ยวกับการดำเนินการ “คลิก” นั้นผิดพลาดจริงๆ มันคิดว่าการคลิกคือ “การเทเลพอร์ตตัวละครปัจจุบัน” แม้ว่าผลลัพธ์จะดูเหมือนชัยชนะที่สะอาด แต่โดยพื้นฐานแล้วมันเป็นเพียงการตีความกลไกพื้นฐานที่ผิดพลาด และบังเอิญเจอด่านที่ผ่อนปรนพอ

ดังนั้น เมื่อเข้าสู่ Level 2 ซึ่งต้องการกลไกที่แท้จริง (การจับคู่รูปร่างและการผลัก) Opus จะยึดติดกับความเข้าใจที่ผิดพลาดนี้มากขึ้นเป็น “คลิกแต่ละเป้าหมายเพื่อเติมเต็ม” ผลลัพธ์ก็เป็นไปตามคาด กระบวนการทั้งหมดเบี่ยงเบน ล่มสลาย และไม่สามารถฟื้นตัวได้

Opus 4.7 กำลังทำงาน “ka59” ติดอยู่ในวงจรตายของ “การคลิกแบบสุ่ม (Click-fishing)” คะแนนเกม: 2.04%

ในงาน “ar25” ก็เช่นกัน Opus ผ่าน Level 1 ด้วยการตีความ “การเคลื่อนที่แบบสะท้อน” ที่ถูกต้อง (ดูขั้นตอนที่ 4) จากนั้นใน Level 2 จริงๆ แล้วมันค้นพบกลไก “แกนเคลื่อนที่ได้” ใหม่ (ดูขั้นตอนที่ 227) แต่หลังจากนั้นมันก็ตกอยู่ในภาพหลอนอีกครั้ง เริ่มจินตนาการถึงกฎที่ไม่มีอยู่จริง เช่น “การเจาะรู” หรือ “ต้องพลิกกลับ”

ในทั้งสองกรณี ความสำเร็จใน Level 1 ปกปิดการขาดหายหรือการบิดเบือนกลไกพื้นฐานของโมเดล “ชัยชนะเฉพาะจุด” นี้กลับเป็นกรอบสนับสนุนที่ดูมั่นใจสำหรับกลยุทธ์ Level 2 ที่ผิดพลาด

นี่ยังแสดงให้เห็นว่าการผ่านด่านแรกๆ ไม่สามารถสะท้อนได้อย่างน่าเชื่อถือว่าโมเดลเข้าใจงานจริงหรือไม่ หากไม่มีการตรวจสอบอย่างชัดเจนว่า “ทำไมโมเดลถึงผ่านด่าน” มันจะนำความเข้าใจที่ผิดพลาดเข้าสู่ด่านต่อไป และขยายความเบี่ยงเบนบนพื้นฐานนั้นอย่างต่อเนื่อง

GPT-5.5 vs Opus 4.7: รูปแบบการ “พลิกคว่ำ” ที่แตกต่างกัน

ที่น่าสนใจคือ แม้ว่าคะแนนของ GPT-5.5 และ Opus 4.7 จะไม่เป็นที่น่าพอใจ แต่ทีมวิจัยพบว่าวิธีการล้มเหลวของพวกมันแตกต่างกันโดยสิ้นเชิงเมื่อเปรียบเทียบบันทึกการทำงานของทั้งสอง

พูดง่ายๆ คือ ปัญหาของ Claude Opus 4.7 คือ “บีบอัดผิด” ในขณะที่ปัญหาของ GPT-5.5 คือ “บีบอัดไม่ได้”

เมื่อดูรายละเอียด Opus 4.7 มีประสิทธิภาพดีกว่าในการระบุกลไกในระยะสั้น ตัวอย่างเช่น ในงาน “ar25” มันสามารถตรวจจับโครงสร้างสะท้อนได้อย่างรวดเร็วและผ่าน Level 1 ได้อย่างราบรื่น ในงาน “ka59” แม้ว่าแบบจำลองโลกจะยังไม่สมบูรณ์ มันก็ยังสามารถตีความเค้าโครง “สองตัวละคร สองเป้าหมาย” และดำเนินการลำดับ Level 1 ที่สั้นกว่าได้สำเร็จ

อย่างไรก็ตาม ปัญหาคือมันมักจะยึดติดกับ “คุณลักษณะคงที่” ที่ผิดพลาดและดำเนินการอย่างดื้อรั้นต่อไป

ตัวอย่างเช่น ในงาน “cn04” มันสร้างทฤษฎีที่ผิดพลาดเกี่ยวกับ “ความคืบหน้า/เวลา/การเปลี่ยนแปลง” และพยายามดำเนินการซ้ำแล้วซ้ำเล่าภายใต้สมมติฐานนี้ (จนถึงขั้นตอนที่ 60) มันสร้าง “คำอธิบายที่ใช้งานได้” จริงๆ แต่คำอธิบายนี้ขัดแย้งกับข้อเท็จจริง

GPT-5.5 ไปสู่อีกขั้วหนึ่ง ขอบเขต “การสร้างสมมติฐาน” ของมันกว้างกว่า ซึ่งทำให้มีแนวโน้มที่จะเสนอแนวคิดที่ถูกต้องมากขึ้น แต่ในขณะเดียวกันก็ยากที่จะเปลี่ยนแนวคิดเป็นการกระทำที่เป็นรูปธรรม

ตัวอย่างเช่น ในงาน “ar25” มันระบุผลกระทบจากการสะท้อนได้ แต่กลับเปิด “พื้นที่ประเภทเกมที่เป็นไปได้” ซ้ำแล้วซ้ำเล่า โดยแกว่งไปมาระหว่าง “Tetris” “Frogger” “Pong” “Tower of Hanoi” และไม่สามารถดำเนินการตามตรรกะสะท้อนอย่างแน่วแน่ได้ ในขณะที่ในงาน “ka59” มันก็สร้างโครงสร้างวัตถุที่ถูกต้องเช่นกัน—โครงร่างเป้าหมายสองแบบและตัวละครที่สองที่สลับได้—แต่ไม่เคยนำความเข้าใจนี้ไปปฏิบัติจริง

กล่าวอีกนัยหนึ่ง Claude Opus 4.7 คล้ายกับ “นักสัญชาตญาณที่มั่นใจเกินไป” ในขณะที่ GPT-5.5 คล้ายกับ “นักทฤษฎีที่ความคิดฟุ้งซ่าน” มากกว่า

ท้ายที่สุดแล้ว ความแตกต่างระหว่างทั้งสองอยู่ที่ความสามารถในการ “บีบอัด”: Claude Opus 4.7 บีบอัดการสังเกตเป็นทฤษฎีที่ “มั่นใจแต่ผิด” ในขณะที่ GPT-5.5 แทบจะไม่สามารถบีบอัดได้เลย โดยยังคงอยู่ในความเป็นไปได้ที่กระจัดกระจาย

ต้องยอมรับว่าครั้งนี้ Claude Opus 4.7 และ GPT-5.5 ต่างก็ได้คะแนนต่ำในการทดสอบ ARC-AGI-3 ซึ่งใกล้เคียงกับ “แก่นแท้ของความฉลาดของมนุษย์” มากที่สุดในปัจจุบัน เผยให้เห็นความจริง: เส้นทางสู่ AGI นั้น “ยาวไกลและยากลำบาก”

แล้วคุณคิดอย่างไรกับประสิทธิภาพของ AI นี้? ยินดีต้อนรับแสดงความคิดเห็นในช่องแสดงความคิดเห็น!

ลิงก์อ้างอิง:

https://x.com/fchollet/status/2050328852107612559

https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis

https://x.com/GregKamradt/status/2050262126120632554

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง