OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

2 hours ago • โครงการโอเพนซอร์ส • 15 views

สถาปัตยกรรม Transformer แบบวนซ้ำลึก: ประสิทธิภาพเทียบเท่าด้วยพารามิเตอร์เพียงครึ่งเดียว

เมื่อเร็วๆ นี้ โครงการโอเพนซอร์สชื่อ OpenMythos ได้รวบรวมงานวิจัยสาธารณะและการคาดเดาหลักเกี่ยวกับสถาปัตยกรรม Claude Mythos เพื่อนำเสนอสถาปัตยกรรม Transformer แบบวนซ้ำลึกที่สร้างสรรค์

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

สถาปัตยกรรมนี้มีชื่อว่า Recurrent Depth Transformer (RDT) แกนหลักอยู่ที่การบรรลุความลึกแบบวนซ้ำผ่านการแบ่งปันน้ำหนักข้ามผู้เชี่ยวชาญและการคำนวณแบบมีเงื่อนไข งานวิจัยยืนยันแล้วว่า การออกแบบนี้สามารถให้ประสิทธิภาพเทียบเท่ากับโมเดลดั้งเดิม โดยใช้พารามิเตอร์เพียงครึ่งเดียว

แนวคิดหลัก: ไม่เพิ่มพารามิเตอร์ แต่เพิ่มการวนซ้ำ

Kye Gomez ผู้ออกแบบสถาปัตยกรรมชี้ให้เห็นว่า แกนหลักคือการให้น้ำหนักโมเดลชุดเดียวกันถูกใช้ซ้ำในกระบวนการอนุมาน แทนที่จะเพิ่มพารามิเตอร์มากขึ้นแบบง่ายๆ

สถาปัตยกรรม Recurrent Depth Transformer มีการออกแบบหลักสามประการ:
* การใช้น้ำหนักซ้ำ: น้ำหนักชุดเดียวกันสามารถนำกลับมาใช้ใหม่ได้สูงสุด 16 ครั้ง
* เส้นทางแบบไดนามิก: แต่ละรอบจะเปิดใช้งานเซตย่อยของผู้เชี่ยวชาญที่แตกต่างกันผ่านกลไกการกำหนดเส้นทาง
* การให้เหตุผลในพื้นที่แฝง: กระบวนการอนุมานทั้งหมดเกิดขึ้นในเวกเตอร์สถานะแฝง โดยไม่สร้างข้อความกลาง

การผสมผสานทั้งสามนี้มีเป้าหมายเพื่อให้โมเดล “คิด” เกี่ยวกับปัญหาอย่างลึกซึ้งยิ่งขึ้น แทนที่จะเพียงขยายขนาดพารามิเตอร์

วิธีดั้งเดิมคือการซ้อนเลเยอร์ Transformer ที่แตกต่างกันเป็นร้อยชั้น ส่งผลให้จำนวนพารามิเตอร์พุ่งสูงขึ้น ในขณะที่สถาปัตยกรรม RDT ใช้เพียงไม่กี่ชั้น และคำนวณผ่านการวนซ้ำสูงสุด 16 รอบ โดยแต่ละรอบจะลึกซึ้งขึ้นจากผลลัพธ์ของรอบก่อนหน้า

เทคโนโลยีหลัก: ผู้เชี่ยวชาญผสมและความเสถียรของการวนซ้ำ

คำถามที่เกิดขึ้นตามธรรมชาติคือ: การใช้น้ำหนักชุดเดียวกันวนหลายรอบ เป็นเพียงการคำนวณซ้ำหรือไม่?
คำตอบของ RDT คือไม่ใช่ กุญแจสำคัญคือในแต่ละรอบจะเปิดใช้งาน “ผู้เชี่ยวชาญ” ที่แตกต่างกัน บล็อกการวนซ้ำภายในประกอบด้วยเลเยอร์ผู้เชี่ยวชาญผสม (MoE) โดยตัวกำหนดเส้นทางจะเลือกเซตย่อยของผู้เชี่ยวชาญที่แตกต่างกันในแต่ละรอบ การออกแบบ MoE นี้ได้รับแรงบันดาลใจจากแนวคิดการกำหนดเส้นทางแบบละเอียดและการแบ่งปันผู้เชี่ยวชาญ

ผู้ออกแบบสรุปแนวคิดนี้ว่า: MoE ให้ความกว้างของความรู้เฉพาะด้าน ในขณะที่การวนซ้ำให้ความลึกของการให้เหตุผล

เพื่อให้มั่นใจถึงความเสถียรในการวนซ้ำหลายรอบ การวิจัยได้นำกลไกสร้างความเสถียรจากเอกสารที่เกี่ยวข้องมาใช้ เพื่อป้องกันไม่ให้กระบวนการวนซ้ำแยกออกจากกัน การทดลองแสดงให้เห็นว่าโมเดล RDT ขนาด 770M พารามิเตอร์ มีประสิทธิภาพเทียบเท่ากับโมเดล Transformer มาตรฐานขนาด 1.3B พารามิเตอร์ ซึ่งลดลงเกือบครึ่งหนึ่ง

การให้เหตุผลภายในและความสามารถในการสรุปทั่วไป

คุณลักษณะสำคัญอีกประการหนึ่งคือการให้เหตุผลในพื้นที่แฝงอย่างต่อเนื่อง โมเดลจะส่งออกคำตอบสุดท้ายหลังจากสิ้นสุดการวนซ้ำทั้งหมด กระบวนการคิดทั้งหมดถูกทำให้เป็นภายในในสถานะแฝง ซึ่งแตกต่างโดยพื้นฐานจากเทคนิคการคิดเป็นโซ่ที่ต้องส่งออกผลลัพธ์กลางทีละขั้น

เอกสารวิชาการที่เกี่ยวข้องให้การสนับสนุนเพิ่มเติมสำหรับสถาปัตยกรรมแบบวนซ้ำ การทดลองแสดงให้เห็นว่า Transformer แบบวนซ้ำทำงานได้ดีเยี่ยมในด้าน การสรุปทั่วไปอย่างเป็นระบบ (การรวมความรู้ที่ยังไม่เคยพบ) และ การคาดการณ์เชิงลึก (การจัดการกับสายโซ่การให้เหตุผลที่ยาวกว่าที่ฝึกฝน) ซึ่งบ่งชี้ว่ามีความสามารถที่แข็งแกร่งกว่าในการรวมความรู้และการให้เหตุผลเชิงลึก

การค้นพบเหล่านี้ชี้ให้เห็นว่า จุดคอขวดของโมเดลขนาดใหญ่ในปัจจุบันอาจไม่ได้อยู่ที่การจดจำความรู้เพิ่มเติม แต่อยู่ที่วิธีการรวมความรู้ที่รู้จักอย่างมีประสิทธิภาพ กลไกการวนซ้ำดูเหมือนจะให้เส้นทางหนึ่งในการปลดล็อกความสามารถดังกล่าว หากข้อสรุปนี้เป็นจริง จุดสนใจของการพัฒนา AI อาจเปลี่ยนบางส่วนจาก “การฝึกโมเดลที่ใหญ่ขึ้น” ไปเป็น “การให้โมเดลที่มีอยู่ให้เหตุผลลึกซึ้งยิ่งขึ้น”

การสำรวจ Transformer แบบวนซ้ำดึงดูดความสนใจอย่างกว้างขวางจากแวดวงวิชาการ โดยมีการตรวจสอบทฤษฎีและการทดลองเพิ่มเติมกำลังดำเนินอยู่

โครงการและลิงก์อ้างอิง:
* โครงการ GitHub: https://github.com/kyegomez/OpenMythos
* เอกสารอ้างอิง:
* https://arxiv.org/abs/2604.07822
* https://arxiv.org/abs/2604.12946

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/31226

Like (0)

0 0

ดาราสาวฮอลลีวูดข้ามสายเปิดตัวโปรเจกต์โอเพนซอร์ส AI ‘MemPalace’: 7,000 ดาวใน 48 ชั่วโมง ข้อมูลทดสอบระบบความจำระยะยาวเผยแพร่

Previous 22 hours ago

Fleet: แนวทางการเขียนโปรแกรมใหม่ในยุคของ GPU แบบ Multi-Chiplet เพื่อแก้ปัญหาประสิทธิภาพการอนุมานโมเดลขนาดใหญ่

Next 2 hours ago

โครงการโอเพนซอร์ส

นางเอก ‘Resident Evil’ ร่วมมือกับโปรแกรมเมอร์สร้าง AI ‘Memory Palace’ แบบเปิดแหล่งในท้องถิ่น ทำคะแนนสูงสุดเป็นประวัติการณ์ที่ 96.6%

ภูมิหลังโครงการ: ระบบความจำ AI แบบโอเพนซอร์ส MemPalace บน GitHub มีโครงการโอเพนซอร์สชื่อ MemPalace ที่ได้รับความสนใจอย่างกว้างขวาง โครงการนี้สร้างขึ้นโดยนักแสดงหญิงชื่อดัง มิลลา โจ…

2026年4月9日
149000
โครงการโอเพนซอร์ส

GitHub เปิดตัว Skill ปล่อยให้ OpenClaw กุ้งเครย์ฟิชพูดได้: คัดลอกเสียงทรัมป์ได้ในคลิกเดียว ผู้ช่วย AI กลายเป็นเพื่อนมีเสียงในพริบตา

GitHub โอเพนซอร์ส Skill ให้ OpenClaw กุ้งเครย์ฟิชพูดได้: โคลนเสียงทรัมป์ด้วยคลิกเดียว วันนี้มาแบ่งปันโปรเจกต์โอเพนซอร์สน่าสนใจที่เพิ่งค้นพบใหม่บน GitHub นี่คือ Skill ชื่อ NoizAI/sk…

2026年3月8日
261000
โครงการโอเพนซอร์ส

โมเดลโอเพนซอร์ส 30B พารามิเตอร์ UniScientist: บรรลุวงจรการวิจัยอัตโนมัติ แปลงปัญหาประเภทเปิดให้เป็นหน่วยทดสอบที่ตรวจสอบได้

โมเดลโอเพนซอร์ส 30B พารามิเตอร์ UniScientist: บรรลุวงจรการวิจัยอัตโนมัติ แปลงปัญหาปลายเปิดให้เป็นแบบทดสอบหน่วยที่ตรวจสอบได้ (1/2) โมเดลภาษาขนาดใหญ่หลายตัวในปัจจุบันสามารถสร้างบทควา…

2026年3月9日
192000
โครงการโอเพนซอร์ส

ลาก่อนความเงียบงันของทักษะ: Cognee ช่วยให้ทักษะ AI พัฒนาตนเองและทำให้เอเจนต์อัจฉริยะได้รับการปรับปรุงอย่างต่อเนื่อง

คุณเคยมีประสบการณ์แบบนี้ไหม: ทักษะของเอเจนต์ (Agent) ที่เคยทำงานได้ดีเมื่อไม่กี่เดือนก่อน อยู่ๆ ก็เริ่ม “ทำงานผิดปกติ”? คุณไล่ตรวจสอบโค้ดทุกบรรทัดก็ไม่พบปัญหา ในที่สุดจ…

2026年3月15日
197000
โครงการโอเพนซอร์ส

จากจังหวะหัวใจสู่การรับรู้อย่างต่อเนื่อง: Clawith ปฏิวัติ OpenClaw สร้างพนักงานดิจิทัล AI แบบร่วมมือ

จาก Heartbeat สู่การรับรู้อย่างต่อเนื่อง: Clawith ปฏิวัติ OpenClaw อย่างไร เพื่อสร้างพนักงานดิจิทัล AI ที่ทำงานร่วมกัน มีมุมมองที่ว่า กลไกหลักของ OpenClaw ยังมีพื้นที่สำหรับการปรับ…

2026年3月16日
199000

OpenMythos เปิดตัว: เปิดเผยสถาปัตยกรรม Transformer แบบวนซ้ำลึก ใช้พารามิเตอร์เพียงครึ่งเดียวแต่ได้ผลลัพธ์เทียบเท่า

สถาปัตยกรรม Transformer แบบวนซ้ำลึก: ประสิทธิภาพเทียบเท่าด้วยพารามิเตอร์เพียงครึ่งเดียว

แนวคิดหลัก: ไม่เพิ่มพารามิเตอร์ แต่เพิ่มการวนซ้ำ

เทคโนโลยีหลัก: ผู้เชี่ยวชาญผสมและความเสถียรของการวนซ้ำ

การให้เหตุผลภายในและความสามารถในการสรุปทั่วไป

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

จากจังหวะหัวใจสู่การรับรู้อย่างต่อเนื่อง: Clawith ปฏิวัติ OpenClaw สร้างพนักงานดิจิทัล AI แบบร่วมมือ