OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

สถาปัตยกรรม Transformer แบบวนซ้ำลึก: ประสิทธิภาพเทียบเท่าด้วยพารามิเตอร์เพียงครึ่งเดียว

เมื่อเร็วๆ นี้ โครงการโอเพนซอร์สชื่อ OpenMythos ได้รวบรวมงานวิจัยสาธารณะและการคาดเดาหลักเกี่ยวกับสถาปัตยกรรม Claude Mythos เพื่อนำเสนอสถาปัตยกรรม Transformer แบบวนซ้ำลึกที่สร้างสรรค์

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

สถาปัตยกรรมนี้มีชื่อว่า Recurrent Depth Transformer (RDT) แกนหลักอยู่ที่การบรรลุความลึกแบบวนซ้ำผ่านการแบ่งปันน้ำหนักข้ามผู้เชี่ยวชาญและการคำนวณแบบมีเงื่อนไข งานวิจัยยืนยันแล้วว่า การออกแบบนี้สามารถให้ประสิทธิภาพเทียบเท่ากับโมเดลดั้งเดิม โดยใช้พารามิเตอร์เพียงครึ่งเดียว

แนวคิดหลัก: ไม่เพิ่มพารามิเตอร์ แต่เพิ่มการวนซ้ำ

Kye Gomez ผู้ออกแบบสถาปัตยกรรมชี้ให้เห็นว่า แกนหลักคือการให้น้ำหนักโมเดลชุดเดียวกันถูกใช้ซ้ำในกระบวนการอนุมาน แทนที่จะเพิ่มพารามิเตอร์มากขึ้นแบบง่ายๆ

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

สถาปัตยกรรม Recurrent Depth Transformer มีการออกแบบหลักสามประการ:
* การใช้น้ำหนักซ้ำ: น้ำหนักชุดเดียวกันสามารถนำกลับมาใช้ใหม่ได้สูงสุด 16 ครั้ง
* เส้นทางแบบไดนามิก: แต่ละรอบจะเปิดใช้งานเซตย่อยของผู้เชี่ยวชาญที่แตกต่างกันผ่านกลไกการกำหนดเส้นทาง
* การให้เหตุผลในพื้นที่แฝง: กระบวนการอนุมานทั้งหมดเกิดขึ้นในเวกเตอร์สถานะแฝง โดยไม่สร้างข้อความกลาง

การผสมผสานทั้งสามนี้มีเป้าหมายเพื่อให้โมเดล “คิด” เกี่ยวกับปัญหาอย่างลึกซึ้งยิ่งขึ้น แทนที่จะเพียงขยายขนาดพารามิเตอร์

วิธีดั้งเดิมคือการซ้อนเลเยอร์ Transformer ที่แตกต่างกันเป็นร้อยชั้น ส่งผลให้จำนวนพารามิเตอร์พุ่งสูงขึ้น ในขณะที่สถาปัตยกรรม RDT ใช้เพียงไม่กี่ชั้น และคำนวณผ่านการวนซ้ำสูงสุด 16 รอบ โดยแต่ละรอบจะลึกซึ้งขึ้นจากผลลัพธ์ของรอบก่อนหน้า

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

เทคโนโลยีหลัก: ผู้เชี่ยวชาญผสมและความเสถียรของการวนซ้ำ

คำถามที่เกิดขึ้นตามธรรมชาติคือ: การใช้น้ำหนักชุดเดียวกันวนหลายรอบ เป็นเพียงการคำนวณซ้ำหรือไม่?
คำตอบของ RDT คือไม่ใช่ กุญแจสำคัญคือในแต่ละรอบจะเปิดใช้งาน “ผู้เชี่ยวชาญ” ที่แตกต่างกัน บล็อกการวนซ้ำภายในประกอบด้วยเลเยอร์ผู้เชี่ยวชาญผสม (MoE) โดยตัวกำหนดเส้นทางจะเลือกเซตย่อยของผู้เชี่ยวชาญที่แตกต่างกันในแต่ละรอบ การออกแบบ MoE นี้ได้รับแรงบันดาลใจจากแนวคิดการกำหนดเส้นทางแบบละเอียดและการแบ่งปันผู้เชี่ยวชาญ

ผู้ออกแบบสรุปแนวคิดนี้ว่า: MoE ให้ความกว้างของความรู้เฉพาะด้าน ในขณะที่การวนซ้ำให้ความลึกของการให้เหตุผล

เพื่อให้มั่นใจถึงความเสถียรในการวนซ้ำหลายรอบ การวิจัยได้นำกลไกสร้างความเสถียรจากเอกสารที่เกี่ยวข้องมาใช้ เพื่อป้องกันไม่ให้กระบวนการวนซ้ำแยกออกจากกัน การทดลองแสดงให้เห็นว่าโมเดล RDT ขนาด 770M พารามิเตอร์ มีประสิทธิภาพเทียบเท่ากับโมเดล Transformer มาตรฐานขนาด 1.3B พารามิเตอร์ ซึ่งลดลงเกือบครึ่งหนึ่ง

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

การให้เหตุผลภายในและความสามารถในการสรุปทั่วไป

คุณลักษณะสำคัญอีกประการหนึ่งคือการให้เหตุผลในพื้นที่แฝงอย่างต่อเนื่อง โมเดลจะส่งออกคำตอบสุดท้ายหลังจากสิ้นสุดการวนซ้ำทั้งหมด กระบวนการคิดทั้งหมดถูกทำให้เป็นภายในในสถานะแฝง ซึ่งแตกต่างโดยพื้นฐานจากเทคนิคการคิดเป็นโซ่ที่ต้องส่งออกผลลัพธ์กลางทีละขั้น

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

เอกสารวิชาการที่เกี่ยวข้องให้การสนับสนุนเพิ่มเติมสำหรับสถาปัตยกรรมแบบวนซ้ำ การทดลองแสดงให้เห็นว่า Transformer แบบวนซ้ำทำงานได้ดีเยี่ยมในด้าน การสรุปทั่วไปอย่างเป็นระบบ (การรวมความรู้ที่ยังไม่เคยพบ) และ การคาดการณ์เชิงลึก (การจัดการกับสายโซ่การให้เหตุผลที่ยาวกว่าที่ฝึกฝน) ซึ่งบ่งชี้ว่ามีความสามารถที่แข็งแกร่งกว่าในการรวมความรู้และการให้เหตุผลเชิงลึก

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

การค้นพบเหล่านี้ชี้ให้เห็นว่า จุดคอขวดของโมเดลขนาดใหญ่ในปัจจุบันอาจไม่ได้อยู่ที่การจดจำความรู้เพิ่มเติม แต่อยู่ที่วิธีการรวมความรู้ที่รู้จักอย่างมีประสิทธิภาพ กลไกการวนซ้ำดูเหมือนจะให้เส้นทางหนึ่งในการปลดล็อกความสามารถดังกล่าว หากข้อสรุปนี้เป็นจริง จุดสนใจของการพัฒนา AI อาจเปลี่ยนบางส่วนจาก “การฝึกโมเดลที่ใหญ่ขึ้น” ไปเป็น “การให้โมเดลที่มีอยู่ให้เหตุผลลึกซึ้งยิ่งขึ้น”

การสำรวจ Transformer แบบวนซ้ำดึงดูดความสนใจอย่างกว้างขวางจากแวดวงวิชาการ โดยมีการตรวจสอบทฤษฎีและการทดลองเพิ่มเติมกำลังดำเนินอยู่

โครงการและลิงก์อ้างอิง:
* โครงการ GitHub: https://github.com/kyegomez/OpenMythos
* เอกสารอ้างอิง:
* https://arxiv.org/abs/2604.07822
* https://arxiv.org/abs/2604.12946

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31226

Like (0)
Previous 22 hours ago
Next 2 hours ago

相关推荐