Claude โมเดล “Mythos” ที่ทรงพลังที่สุด: สถาปัตยกรรม Byte-Cycle สนับสนุน, ประสิทธิภาพการค้นหาภาพเหนือกว่า GPT5.4 สี่เท่า

2 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 11 views

โมเดล “ตำนาน” Mythos ที่ทรงพลังที่สุดของ Claude อาจใช้โครงสร้างทางเทคนิคจาก ByteDance เป็นเบื้องหลัง?

การคาดเดานี้ได้ขึ้นสู่เทรนด์บนแพลตฟอร์มโซเชียลมีเดียโดยตรงเมื่อไม่นานมานี้

Claude โมเดล "Mythos" ที่ทรงพลังที่สุด: สถาปัตยกรรม Byte-Cycle สนับสนุน, ประสิทธิภาพการค้นหาภาพเหนือกว่า GPT5.4 สี่เท่า

โมเดล Mythos ที่ถูกอธิบายว่า “ทรงพลังจนไม่กล้าเปิดตัวสู่สาธารณะ” นี้ ได้จุดประกายจินตนาการของวงการต่อโครงสร้างโมเดลภาษาขนาดใหญ่รุ่นต่อไปอย่างแท้จริง ชุมชนกำลังอภิปรายกันอย่างร้อนแรงว่ามันใช้โครงสร้างโมเดลภาษาวนซ้ำ (Recurrent Language Model) หรือไม่

แนวคิดนี้มีที่มาจากบทความวิชาการที่เผยแพร่โดยความร่วมมือระหว่างทีม Seed ของ ByteDance กับมหาวิทยาลัยหลายแห่ง โดย Yoshua Bengio ผู้ได้รับรางวัลทัวริงก็มีส่วนร่วมในการวิจัยครั้งนี้ด้วย

เบาะแสสำคัญมาจากชุดข้อมูลทดสอบที่ Anthropic เปิดเผยอย่างเป็นทางการ บทความของ ByteDance เคยชี้ให้เห็นว่าการค้นหาแบบกราฟเป็นหนึ่งในด้านที่อัลกอริทึมวนซ้ำมีข้อได้เปรียบทางทฤษฎีอย่างมากเมื่อเทียบกับวิธีมาตรฐาน และโมเดล Mythos นี้ แสดงให้เห็นถึงความสามารถที่เหนือกว่า GPT-5.4 อย่างมีนัยสำคัญในการทดสอบการค้นหาแบบกราฟด้วยวิธี Breadth-First Search (BFS) พอดี

ในการทดสอบนี้ Mythos ได้คะแนน 80% ในขณะที่ GPT-5.4 ได้เพียง 21.4% ต่างกันเกือบสี่เท่า สิ่งที่ควรสังเกตคือ ในงานประเภทอื่น ๆ ไม่ได้มีความแตกต่างของคะแนนที่ผิดปกติเช่นนี้ สิ่งนี้บ่งชี้ว่าความก้าวหน้าของ Mythos น่าจะไม่ได้มาจาก Scaling Law แบบทั่วไป แต่มาจากนวัตกรรมโครงสร้างเฉพาะทาง

โมเดลภาษาวนซ้ำ: “วนหลายรอบ” ในเลเยอร์เดียวกัน โมเดลเล็กสามารถท้าทายโมเดลใหญ่ได้

การทดสอบ GraphWalks BFS กำหนดให้โมเดลทำการค้นหาแบบกว้างก่อน (BFS) บนโครงสร้างกราฟที่ซับซ้อน นั่นคือเริ่มจากจุดเริ่มต้น และเข้าถึงโหนดที่เชื่อมต่อทั้งหมดทีละชั้น

โครงสร้าง Transformer มาตรฐานเมื่อจัดการปัญหาประเภทนี้ สามารถทำการแพร่กระจายไปข้างหน้า (forward propagation) ได้เพียงครั้งเดียว จากอินพุตไปยังเอาต์พุต ขาดกลไก “การวนซ้ำ” (iteration) แต่ Mythos สามารถทำคะแนนสูงถึง 80% ในงานการสำรวจกราฟได้ แสดงว่าภายในของมันน่าจะกำลังทำการ “คำนวณซ้ำ ๆ” อยู่ โดยประมวลผลข้อมูลชุดเดิมหลายรอบ

แล้วโครงสร้างแบบใดที่สามารถทำให้เกิด “การคำนวณซ้ำ ๆ” นี้ได้? บทความของทีม Seed ของ ByteDance ได้เสนอ LoopLM (Loop Language Model) หรือโมเดลภาษาวนซ้ำ

โครงสร้าง LoopLM มีลักษณะสำคัญสามประการ:
1. การวนซ้ำภายใน: กระบวนการคิดเกิดขึ้นภายใน latent space ของโมเดล ไม่ได้ส่งออกโทเคนเพิ่มเติม
2. จำนวนขั้นตอนแบบไดนามิก: ปัญหาง่ายวนซ้ำน้อยขั้นตอน ปัญหายากวนซ้ำหลายขั้นตอน สามารถปรับได้อัตโนมัติ
3. เป้าหมายการฝึกล่วงหน้า (Pre-training Objective): เรียนรู้ “วิธีคิดใน latent space” ขณะฝึก ไม่ใช่เพียงแค่ “ทำนายโทเคนถัดไป”

ทีมวิจัยได้ฝึกฝนชุดโมเดลภาษาวนซ้ำ Ouro series ขึ้นจากโครงสร้างนี้

ผลการทดสอบแสดงให้เห็นว่า โมเดล Ouro ขนาด 1.4B พารามิเตอร์ มีประสิทธิภาพเทียบเท่ากับโมเดลดั้งเดิมขนาดประมาณ 4B พารามิเตอร์; ส่วน โมเดล Ouro ขนาด 2.8B พารามิเตอร์ เทียบเท่ากับโมเดลดั้งเดิมขนาด 8B–12B พารามิเตอร์

เกี่ยวกับที่มาของความสามารถที่เพิ่มขึ้นของโมเดลวนซ้ำ บทความได้แยกแยะระหว่าง “การจัดเก็บความรู้” และ “การดำเนินการกับความรู้” อย่างละเอียด:
* ความจุของการจัดเก็บความรู้นั้นคงที่โดยพื้นฐาน ถูกจำกัดด้วยจำนวนพารามิเตอร์ของโมเดล โครงสร้างแบบวนซ้ำเองไม่ได้ทำให้โมเดล “จำ” ข้อเท็จจริงได้มากขึ้น
* ความสามารถในการดำเนินการกับความรู้ เช่น การให้เหตุผลหลายขั้นตอน (multi-hop reasoning) การดำเนินการโปรแกรม การค้นหาโครงสร้างกราฟ ฯลฯ สามารถเติบโตแบบเอกซ์โพเนนเชียลได้ เมื่อจำนวนขั้นตอนการวนซ้ำและปริมาณข้อมูลการฝึกเพิ่มขึ้น

กล่าวอีกนัยหนึ่ง โมเดลวนซ้ำไม่ได้ขยายความจุของฐานความรู้ แต่เพิ่มความสามารถในการค้นหา รวมรวม และให้เหตุผลภายในฐานความรู้อย่างมาก

นอกจากผลการทดสอบการค้นหาแบบกราฟแล้ว ชุมชนยังได้สรุปเบาะแสเพิ่มเติมที่ชี้ว่า Mythos อาจใช้โครงสร้างแบบวนซ้ำ

สามเบาะแสชี้ไปที่โครงสร้างโมเดลวนซ้ำ

เบาะแสแรก คือผลการทดสอบการค้นหาแบบกราฟด้วยวิธี BFS ที่กล่าวถึงก่อนหน้า Mythos ไม่เพียงแต่นำหน้า GPT-5.4 อย่างมาก แต่ยังมีการพัฒนาที่โดดเด่นผิดปกติเมื่อเทียบกับโมเดลรุ่นก่อนอย่าง Claude 3 Opus อีกด้วย

เบาะแสที่สอง Anthropic รายงานว่า Mythos ใช้จำนวนโทเคนในการทำงานแต่ละงานเพียง 1/5 ของ Opus 4.6 แต่ความเร็วในการอนุมาน (inference speed) กลับช้ากว่า สิ่งนี้อธิบายได้ยากในกรอบของ Transformer มาตรฐาน — โทเคนน้อยหมายถึงขั้นตอนการสร้างน้อย ควรจะเร็วกว่า อย่างไรก็ตาม โมเดลวนซ้ำสามารถอธิบายความขัดแย้งนี้ได้พอดี: การคำนวณจำนวนมากเกิดขึ้นในการวนซ้ำภายในของ latent space ไม่ใช่ในขั้นตอนการสร้างโทเคนที่มองเห็นได้

เบาะแสที่สาม Mythos มีประสิทธิภาพโดดเด่นอย่างยิ่งในการทดสอบความปลอดภัยไซเบอร์ โดยได้คะแนน 83.1% บนชุดทดสอบ CyberGym ซึ่งสูงกว่า Opus 4.6 ที่ได้ 66.6% อย่างมาก นอกจากนี้ ยังมีรายงานว่า Mythos ค้นพบช่องโหว่ zero-day หลายพันช่องโหว่ โดยแก่นแท้ของการค้นพบช่องโหว่คือการสำรวจกราฟการไหลของโปรแกรม (program control flow graph) เพื่อค้นหาเส้นทางจากจุดป้อนข้อมูลไปยังฟังก์ชันที่เป็นอันตราย ซึ่งนี่ก็คือปัญหาการเข้าถึงได้ของกราฟ (graph reachability problem) เช่นกัน — สอดคล้องกับข้อได้เปรียบที่มีศักยภาพของโครงสร้างแบบวนซ้ำอีกครั้ง

ในปัจจุบัน ทั้งหมดนี้ยังคงอยู่ในขั้นตอนของการคาดเดา Anthropic ไม่ได้เปิดเผยข้อมูลใด ๆ เกี่ยวกับโครงสร้างของ Mythos และมีแนวโน้มว่าจะไม่เปิดเผยในอนาคตเช่นกัน แต่มีประโยคหนึ่งที่ควรค่าแก่การไตร่ตรอง: การปรับปรุงที่มาจาก Scaling Law นั้นค่อนข้างสม่ำเสมอ ในขณะที่นวัตกรรมโครงสร้างจะสร้างยอดประสิทธิภาพที่โดดเด่นผิดปกติในงานเฉพาะที่สอดคล้องกับอคติเชิงอุปนัย (Inductive Bias) ของมัน

อคติเชิงอุปนัยของ Transformer แบบวนซ้ำก็คืออัลกอริทึมกราฟแบบวนซ้ำ (Iterative Graph Algorithm) และยอดประสิทธิภาพของ Mythos ก็ปรากฏขึ้นอย่างพอเหมาะในงานการสำรวจกราฟ บางที Anthropic อาจไม่จำเป็นต้องพูดอะไรมาก ข้อมูลทดสอบเองก็ได้เผยเบาะแสสำคัญออกมาแล้ว

ลิงก์บทความ:
https://arxiv.org/abs/2510.25741

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง