วงการ AI สั่นสะเทือน! การทดสอบ AGI ที่ยากที่สุดในโลก ARC-AGI-3 เปิดตัวแล้ว มนุษย์ผ่านได้เต็มคะแนน แต่โมเดลที่แข็งแกร่งที่สุดอย่าง Opus 4.6 ได้เพียง 0.2%

2026年3月27日 am10:46 • การประเมินโมเดลขนาดใหญ่ • 208 views

วันนี้ ผลการทดสอบมาตรฐานที่ชื่อว่า ARC-AGI-3 ได้รับการเปิดเผย และ “ช่องว่างระหว่างมนุษย์กับเครื่อง” อันมหาศาลที่ปรากฏออกมา ได้ดึงดูดความสนใจอย่างกว้างขวางในชุมชนวิจัย AI

ในฐานะมาตรวัดความฉลาดที่สำคัญระดับโลกซึ่งยังไม่ถูก “อิ่มตัว” ด้วยความสามารถของ AI ที่มีอยู่ในปัจจุบัน ARC-AGI-3 ได้ทำการประเมินโมเดลภาษาขนาดใหญ่ชั้นนำของโลกอย่างครอบคลุม ผลลัพธ์แสดงให้เห็นว่ามนุษย์ได้คะแนนเฉลี่ยสูงถึง 100% ในแบบทดสอบนี้ ในขณะที่คะแนนของโมเดล AI ทุกตัวที่เข้าร่วมการทดสอบโดยทั่วไปต่ำกว่า 1%

วงการ AI สั่นสะเทือน! การทดสอบ AGI ที่ยากที่สุดในโลก ARC-AGI-3 เปิดตัวแล้ว มนุษย์ผ่านได้เต็มคะแนน แต่โมเดลที่แข็งแกร่งที่สุดอย่าง Opus 4.6 ได้เพียง 0.2%

ช่องว่างนี้ถูกเปรียบเปรยอย่างชัดเจนว่า “สูงกว่ายอดเขาเอเวอเรสต์” สิ่งที่น่าสนใจเป็นพิเศษคือ โมเดล Opus 4.6 ซึ่งแสดงผลได้ดีเยี่ยมในแบบทดสอบรุ่นก่อนหน้า (ARC-AGI-2) ด้วยคะแนน 69.2% แต่คะแนนใน ARC-AGI-3 ตกลงมาอย่างรวดเร็วเหลือ 0.2%

ผลลัพธ์นี้เปรียบเสมือนกระจกเงาที่สะท้อนให้เห็นอย่างชัดเจนถึงข้อบกพร่องพื้นฐานที่มีอยู่ในโครงสร้างความสามารถของปัญญาประดิษฐ์ในปัจจุบัน

เมื่อเร็วๆ นี้ มีมุมมองที่เชื่อว่าเราอาจจะก้าวถึงขีดจำกัดของปัญญาประดิษฐ์ทั่วไป (AGI) แล้ว อย่างไรก็ตาม ข้อมูลการทดสอบ ARC-AGI-3 บ่งชี้ว่า AI ในปัจจุบันอาจยังไม่บรรลุแม้แต่ 1% ของความสามารถที่ AGI ต้องการ

ARC-AGI-3: แนวคิดการออกแบบและความยากระดับสูงสุด

รุ่นก่อนหน้าของ ARC-AGI-3 (ARC-AGI-1 และ ARC-AGI-2) มีชื่อเสียงในวงการ AI มาอย่างยาวนานในด้านความยากระดับสูงสุด

ในการทดสอบก่อนหน้านี้ AI จำเป็นต้องสังเกตตัวอย่างที่กำหนดให้ (เช่น การเปลี่ยนแปลงกริดกราฟิก) เพื่ออนุมานกฎเชิงนามธรรมที่อยู่เบื้องหลัง และนำไปใช้แก้ไขปัญหาใหม่ แม้ว่าข้อปัญหาจะดูเรียบง่าย แต่ก็ทำให้โมเดลภาษาขนาดใหญ่นับไม่ถ้วนล้มเหลว

และ ARC-AGI-3 ได้ยกระดับความยากไปสู่มิติใหม่: จากโจทย์การให้เหตุผลแบบสถิต ไปเป็นเกมแบบโต้ตอบเชิงไดนามิก

การทดสอบประกอบด้วยสภาพแวดล้อมเกมแบบโต้ตอบที่ออกแบบด้วยมือมากกว่า 150 เกม ครอบคลุมด่านต่างๆ กว่า 1,000 ด่าน แต่ละเกมมีตรรกะภายใน กฎที่ซ่อนอยู่ และเงื่อนไขการชนะที่เป็นเอกลักษณ์ ประเด็นสำคัญคือ: ไม่มีเอกสารคำอธิบายหรือคำแนะนำภาษาใดๆ เอเจนต์ AI ถูกวางลงในเกมโดยตรง สามารถเห็นได้แค่ภาพหน้าจอปัจจุบันเท่านั้น และต้องเลือกการกระทำ สังเกตผลตอบรับ เพื่อสำรวจและทำความเข้าใจสภาพแวดล้อม

AI ต้องเหมือนกับ “คนตาบอดคลำช้าง” ผ่านการลองผิดลองถูกเพื่อค่อยๆ สร้างแบบจำลองทางจิตเกี่ยวกับ “โลกนี้ทำงานอย่างไร”

นี่คือความสามารถหลักสี่ประการที่มูลนิธิ ARC Prize ตั้งใจจะวัด:
* การสำรวจ: สามารถรับข้อมูลสำคัญผ่านการโต้ตอบเชิงรุกได้หรือไม่?
* การสร้างแบบจำลอง: สามารถรวบรวมการสังเกตที่กระจัดกระจายให้กลายเป็นแบบจำลองโลกที่สามารถทำนายสถานะในอนาคตได้หรือไม่?
* การบรรลุเป้าหมาย: ในสถานการณ์ที่ไม่มีคำสั่งที่ชัดเจน สามารถอนุมานเป้าหมายที่ควรจะไล่ตามได้ด้วยตนเองหรือไม่?
* การวางแผนและการปฏิบัติ: สามารถกำหนดแผนการดำเนินงาน และปรับเปลี่ยนตามผลตอบรับจากสภาพแวดล้อมได้หรือไม่?

เกณฑ์การให้คะแนนแบบ “เรขาคณิต”: การตีความความหมายของ 0.2%

เกณฑ์การให้คะแนนของ ARC-AGI-3 นั้นเข้มงวดอย่างยิ่ง แกนกลางไม่ใช่แค่ “ผ่านด่านหรือไม่” แต่เป็นการประเมินประสิทธิภาพ ของเอเจนต์ในการแก้ปัญหา และเป็นการเปรียบเทียบกับประสิทธิภาพพื้นฐานของมนุษย์ นี่เป็นครั้งแรกในประวัติศาสตร์การทดสอบมาตรฐาน AI

ได้รับแรงบันดาลใจจากแนวคิดของนักวิจัย François Chollet เกี่ยวกับการวัดความฉลาด ทีม ARC Prize ได้กำหนด “ความฉลาด” ในเชิงปฏิบัติเป็นปัญหาเรื่องประสิทธิภาพการแปลงข้อมูล: คุณสามารถสกัดข้อมูลจากสภาพแวดล้อมได้อย่างมีประสิทธิภาพแค่ไหน? และคุณสามารถแปลงข้อมูลเหล่านี้เป็นการกระทำที่ถูกต้องได้เร็วแค่ไหน?

สูตรการให้คะแนนเฉพาะคือ: (จำนวนก้าวที่มนุษย์ต้องการ / จำนวนก้าวที่ AI ต้องการ)²
* สมมติว่ามนุษย์ต้องการเฉลี่ย 10 ก้าวเพื่อแก้เกมหนึ่ง
* หาก AI ใช้ 100 ก้าว คะแนนคือ (10/100)² = 0.01 หรือ 1%
* หาก AI ใช้ 200 ก้าว คะแนนคือ (10/200)² = 0.0025 หรือ 0.25%

การออกแบบนี้ปิดโอกาสที่ AI จะพึ่งพาการลองผิดลองถูกแบบ “บังคับใช้ทุกวิธี” อย่างสิ้นเชิง ทุกก้าวที่ลองเพิ่มเติม คะแนนจะลดลงในระดับยกกำลังสอง

จากนี้สามารถเข้าใจได้ว่าคะแนน 0.2% ของ Opus 4.6 หมายความว่าอย่างไร: คำนวณย้อนกลับแสดงให้เห็นว่าในเกมที่มนุษย์ต้องการเพียง 10 ก้าว โมเดลนี้โดยเฉลี่ยต้องการประมาณ 224 ก้าว ในการแก้ปัญหา นี่ไม่ใช่แค่ “ไม่ฉลาดพอ” แต่ดูเหมือนจะหลงทางในเขาวงกตอย่างสิ้นเชิง

ใบรายงานผลแบบพาโนรามา: 350 ก้าว เทียบกับ สองสามครั้ง

ก่อนการเผยแพร่อย่างเป็นทางการ ARC-AGI-3 ได้ทำการทดสอบตัวอย่างสำหรับนักพัฒนาระยะเวลา 30 วัน

การทดสอบประกอบด้วยเกมสาธารณะสามเกมที่มีสไตล์แตกต่างกัน (เช่น การนำทางแผนที่ การจับคู่รูปแบบ การปรับระดับน้ำ) ผู้เล่นที่เป็นมนุษย์กว่า 1,200 คนเข้าร่วมการทดสอบ สำเร็จเกมมากกว่า 3,900 เกม และกำหนดคะแนนพื้นฐานของมนุษย์ที่ 100% ได้อย่างง่ายดาย ในทางตรงกันข้ามอย่างชัดเจน คะแนนของโมเดลภาษาขนาดใหญ่ล้ำสมัยทั้งหมดต่ำกว่า 1%

ผู้ชนะในระยะตัวอย่างคือเอเจนต์ชื่อ “StochasticGoose” (จาก Tufa Labs) ซึ่งไม่ใช่โมเดลภาษาขนาดใหญ่ แต่เป็นระบบการเรียนรู้การกระทำที่สร้างขึ้นจากโครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) และการเรียนรู้แบบเสริมกำลังอย่างง่าย โดยได้คะแนนสุดท้ายที่ 12.58% ถึงกระนั้น ในเกมปรับระดับน้ำหนึ่งเกม เอเจนต์นี้ยังคงดำเนินการคลิกที่ไร้ประสิทธิภาพเกือบ 350 ครั้ง ในช่วงเริ่มเกม — ในขณะที่ผู้เล่นที่เป็นมนุษย์โดยปกติต้องการเพียง “สองสามครั้ง” เพื่อเข้าใจกลไก

ปรากฏการณ์ที่ขัดต่อสัญชาตญาณยิ่งขึ้นคือ: อันดับต้นๆ ของกระดานคะแนนเกือบทั้งหมดถูกครอบครองโดยโซลูชันที่ไม่ใช่ LLM (เช่น CNN การค้นหาแบบกราฟตามกฎ การวิเคราะห์เฟรมโดยไม่ต้องฝึกฝน) โซลูชัน CNN อย่างง่ายได้คะแนนสูงกว่าชุด GPT-5.x มากกว่า 12 เปอร์เซ็นต์ เอเจนต์จำนวนมากที่เชื่อมต่อกับโมเดลภาษาขนาดใหญ่ล้ำสมัย กลับได้อันดับต่ำสุด หรือแม้แต่ล่มบ่อยครั้ง

รูปแบบความล้มเหลวหลัก: AI ถูกขังด้วย “ความรู้” ของตัวเอง

ทีม ARC วิเคราะห์พบว่า รูปแบบความล้มเหลวหลักอย่างหนึ่งของ AI คือ: “เข้าใจผิดว่าตนเองอยู่ในสถานการณ์ที่คุ้นเคยอีกสถานการณ์หนึ่ง”

ตัวอย่างเช่น AI เข้าสู่สภาพแวดล้อมใหม่ ตามข้อมูลภาพเริ่มต้นแล้ว “สมมติขึ้นมาเอง” อย่างรวดเร็วว่าเป็นกรอบเกมที่มัน “เคยเห็น” จากข้อมูลการฝึก (เช่น “นี่คือเกมตีอิฐ”) จากนั้นก็ดื้อดึงดำเนินแผนตามสมมติฐานที่ผิดพลาดนี้ ไม่สามารถปรับเปลี่ยนการรับรู้ตามผลตอบรับเชิงลบได้

สิ่งนี้เผยให้เห็นว่า AI ในปัจจุบันโดยทั่วไปขาดความสามารถด้าน “อภิปัญญา” — นั่นคือความสามารถ “รู้ว่าตนเองไม่รู้” ซึ่งอธิบายได้ว่าทำไมโมเดลภาษาขนาดใหญ่ที่มีพารามิเตอร์มากขึ้น มีความรู้ก่อนการฝึกมากกว่า จึงแสดงผลแย่กว่า: พวกมันมีแนวโน้มที่จะบังคับให้สภาพแวดล้อมที่ไม่คุ้นเคยเข้าไปอยู่ในรูปแบบที่รู้จักมากขึ้น จึงติดอยู่ในทางตัน ในทางตรงกันข้าม โมเดลที่เบากว่า ไม่มี “ภาระความคิด preconceived” สามารถมุ่งความสนใจไปที่การเรียนรู้จากผลตอบรับสภาพแวดล้อมแบบเรียลไทม์ได้ดีกว่า

ข้อได้เปรียบของมนุษย์: วงจรการเรียนรู้โดยสัญชาตญาณ

ทีม ARC ระบุในเอกสารว่า: “มนุษย์ไม่ทำสิ่งต่างๆ แบบใช้กำลังดุร้าย พวกเขาสร้างแบบจำลองทางความคิด ทดสอบความคิด และปรับปรุงอย่างรวดเร็ว”

เมื่อผู้เล่นที่เป็นมนุษย์เผชิญกับเกมใหม่ พวกเขาจะเริ่มวงจรที่มีประสิทธิภาพโดยสัญชาตญาณ:
1. สร้างแบบจำลอง: สังเกตอย่างรวดเร็ว สร้างแบบจำลองทางจิตเบื้องต้นเกี่ยวกับ “โลกทำงานอย่างไร” ภายในไม่กี่นาที
2. ทดสอบสมมติฐาน: ตรวจสอบแบบจำลองผ่านการกระทำ ปรับปรุงหรือแก้ไขแบบจำลองทันทีตามผลลัพธ์ (สอดคล้องหรือเบี่ยงเบนจากความคาดหวัง)
3. ทำซ้ำอย่างรวดเร็ว: ในวงจร “สำรวจ-สร้างแบบจำลอง-ตรวจสอบ-แก้ไข” อย่างรวดเร็วเพื่อเข้าใกล้การแก้ปัญหา

ในขณะที่ “การเรียนรู้” ของ AI กระแสหลักในปัจจุบัน โดยพื้นฐานแล้วเป็นกระบวนการ “การจดจำ” แบบออฟไลน์ ที่อาศัยการจับคู่รูปแบบจากข้อมูลมหาศาล ARC-AGI-3 ไม่มี “คลังโจทย์” ให้จดจำใดๆ มันทดสอบความสามารถหลักที่ว่า “เรียนรู้อย่างไร” — และนี่คือจุดที่อ่อนแอที่สุดของ AI ในปัจจุบัน

ปัจจุบัน เงินรางวัลรวมสำหรับการแข่งขันแบบเปิดรอบ ARC-AGI-3 สูงถึง 850,000 ดอลลาร์สหรัฐ โดย 700,000 ดอลลาร์สหรัฐสงวนไว้สำหรับ “ผู้ที่ผ่านด่านได้คะแนนเต็ม” โซลูชันที่ส่งเข้าประกวดต้องเป็นโอเพ่นซอร์สทั้งหมด และได้รับการประเมินในสภาพแวดล้อมที่ไม่มีเครือข่าย เพื่อรับประกันความยุติธรรม

“ยอดเขาเอเวอเรสต์” ที่กั้นระหว่างประสิทธิภาพของ AI กับมนุษย์ จะมี AI ตัวใดที่สามารถปีนข้ามไปได้สำเร็จหรือไม่? คำตอบรอการเปิดเผยในอนาคต

ข้อมูลอ้างอิง:
* https://x.com/Hesamation/status/2036861818321146306
* https://arcprize.org/arc-agi/3
* https://docs.arcprize.org/
* https://x.com/fchollet/status/2036881543973790004

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง