Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

2026年3月17日 pm2:41 • การอนุมานโมเดลขนาดใหญ่ • 220 views

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่นยำที่ต้องการหลายขั้นตอนและบริบทยาว ผลงานยังไม่น่าพอใจ

เพื่อแก้ปัญหานี้ งานวิจัยใหม่ที่ได้รับการชื่นชมจาก Karpathy เสนอวิธีแก้ไขพื้นฐาน: สร้างคอมพิวเตอร์ในตัวโดยตรงภายในโมเดลขนาดใหญ่

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

วิธีนี้ละทิ้งรูปแบบ “เอาท์ซอร์ส” ที่พึ่งพาเครื่องมือภายนอก สร้างสรรค์โดยฝังชุดโปรแกรมที่ปฏิบัติการได้ในน้ำหนักของ Transformer ผ่านการออกแบบหัวความสนใจสองมิติแบบใหม่ ทำให้ประสิทธิภาพการประมวลผลการคำนวณแม่นยำลำดับยาวของโมเดลขนาดใหญ่เพิ่มขึ้นถึงระดับเลขชี้กำลัง แม้บน CPU ทั่วไปก็สามารถสร้างผลลัพธ์แบบสตรีมได้มากกว่า 30,000 โทเค็นต่อวินาที

ฝังคอมพิวเตอร์ในตัวใน Transformer

แม้โมเดลขนาดใหญ่ล่าสุดจะก้าวข้ามอุปสรรคในงานซับซ้อนมากมาย แต่ในการจัดการปัญหาบริบทยาวที่ต้องการการคำนวณแม่นยำหลายขั้นตอน ความสามารถยังมีข้อจำกัดชัดเจน

อุตสาหกรรมปัจจุบันมีวิธีแก้ไขหลักสองแบบ:
1. เรียกใช้เครื่องมือ: ให้โมเดลสร้างสคริปต์ ส่งให้ตัวแปลภาษาภายนอกดำเนินการแล้วส่งกลับผลลัพธ์
2. จัดสรรเอเจนต์อัจฉริยะ: แบ่งงานผ่านเครื่องสถานะภายนอก เรียกใช้โมเดลแบบวนซ้ำ

ทั้งสองวิธีนี้โดยพื้นฐานคือเพิ่ม “อุปกรณ์เสริม” ให้โมเดล เอาท์ซอร์สความสามารถในการคำนวณ ส่วนกลไกถอดรหัสแบบถดถอยอัตโนมัติของ Transformer มาตรฐาน เนื่องจากต้นทุนการคำนวณเพิ่มขึ้นเชิงเส้นตามความยาวลำดับ ทำให้การคำนวณแม่นยำระยะยาวยากยิ่งขึ้น

งานวิจัยของทีม Percepta ข้ามกรอบนี้ไป ทำให้ตัว Transformer กลายเป็นคอมพิวเตอร์โดยตรง

อันดับแรก พวกเขาทำให้ชุด คอมพิวเตอร์ RAM สมัยใหม่และตัวแปลภาษา WebAssembly เกิดขึ้นในน้ำหนักของ Transformer WebAssembly เป็นชุดคำสั่งระดับล่างที่มีประสิทธิภาพสูงและเสถียร สามารถคอมไพล์โค้ดที่เขียนด้วยภาษาเช่น C/C++ เป็นลำดับคำสั่งโทเค็นที่โมเดลรู้จักได้

นั่นหมายความว่า โปรแกรมมาตรฐานใดๆ ก็สามารถทำงานโดยตรงภายในโมเดลได้ ตัวอย่างเช่น เมื่อคำนวณ “3+5” โมเดลจะสร้างคำสั่งโปรแกรมที่สอดคล้องกันก่อน:

จากนั้นเปลี่ยนเป็นโหมดถอดรหัสเร็ว ดำเนินการโปรแกรมนั้นทีละขั้นตอนภายใน Transformer และส่งออกกระบวนการดำเนินการแต่ละขั้นตอนในรูปแบบสตรีมโทเค็นแบบเรียลไทม์:

ผลลัพธ์การคำนวณสร้างขึ้นในสตรีมผลลัพธ์ของโมเดลโดยตรง ไม่ต้องรอเครื่องมือภายนอก และกระบวนการทั้งหมดโปร่งใสสมบูรณ์ ทำให้การคำนวณสามารถตรวจสอบได้

หัวความสนใจสองมิติและประสิทธิภาพที่เพิ่มขึ้นระดับเลขชี้กำลัง

เพื่อเพิ่มประสิทธิภาพการทำงานของคอมพิวเตอร์ในตัว ทีมวิจัยออกแบบ หัวความสนใจสองมิติ ที่สร้างสรรค์

ในการออกแบบนี้ เวกเตอร์ Key ของแต่ละโทเค็นในอดีตเป็นสองมิติ ส่วนเวกเตอร์ Query ของขั้นตอนปัจจุบันสามารถมองเป็นทิศทางหนึ่งบนระนาบสองมิติ ดังนั้น การสอบถามความสนใจ (ค้นหา Key ที่ตรงกับ Query มากที่สุด) จึงเปลี่ยนเป็นปัญหาคณิตศาสตร์เชิงเรขาคณิต: บนเปลือกนูนของระนาบสองมิติ ค้นหาจุดที่ไกลที่สุดตามทิศทาง Query

ด้วยโครงสร้างข้อมูลเปลือกนูน โมเดลสามารถบำรุงรักษาเปลือกนูนของ Key ในอดีตแบบไดนามิกขณะสร้างโทเค็น ทำให้ความซับซ้อนของการสอบถามความสนใจแต่ละขั้นตอนลดจาก O(n) เป็น O(log n) HullKVCache ที่ออกแบบบนพื้นฐานหลักการนี้ บน CPU ทั่วไปทำได้ปริมาณงาน 31037 โทเค็นต่อวินาที ดำเนินการลำดับคำสั่งประมาณ 9000 บรรทัดเสร็จใน 1.3 วินาที ประสิทธิภาพเพิ่มขึ้นเกือบ 200 เท่า เมื่อเทียบกับแคช KV แบบดั้งเดิม

การออกแบบนี้ใช้ Transformer ของ PyTorch มาตรฐานโดยสมบูรณ์ ไม่ต้องใช้เคอร์เนลเฉพาะหรือหน้ากากเบาบาง 只需กำหนดค่ามิติและจำนวนหัวความสนใจอย่างง่ายก็สามารถนำไปใช้ได้

การตรวจสอบจริง: แก้ปัญหาซูโดกุที่ยากที่สุดได้แม่นยำ 100%

ทีมวิจัยเลือกงานคำนวณแม่นยำระยะยาวสองงานที่เป็นตัวอย่างเพื่อตรวจสอบประสิทธิภาพของวิธีนี้: การจับคู่สมบูรณ์ต้นทุนต่ำสุด 10×10 และ ซูโดกุที่ยากที่สุดในโลก Arto Inkala ที่ยอมรับกัน

ในงานแรก โมเดลดำเนินการอัลกอริทึมฮังการีภายใน สร้างร่องรอยการคำนวณแต่ละขั้นตอนตั้งแต่การจัดสรรแถวไปจนถึงการค้นหาเส้นทางเสริมอย่างชัดเจนในรูปแบบถดถอยอัตโนมัติ สุดท้ายแก้ปัญหาสมการที่ดีที่สุดได้แม่นยำ กระบวนการทั้งหมดบน CPU ทำได้ประสิทธิภาพผลลัพธ์ 33583 โทเค็นต่อวินาที 7301 บรรทัดคำสั่ง

เมื่อแก้ปัญหาซูโดกุ Arto Inkala (มีเพียง 21 ตัวเลขคำใบ้) โมเดลทำงานตัวแก้ปัญหาที่คอมไพล์แล้วถูกต้องสมบูรณ์ภายใน ตั้งแต่การแพร่กระจายข้อจำกัดเติมไปจนถึงการลอง ตรวจสอบ ย้อนกลับ ในการค้นหาเชิงลึกแบบลำดับความสำคัญ แต่ละขั้นตอนสร้างในรูปแบบบรรทัดบันทึกที่อ่านได้แบบถดถอยอัตโนมัติ สุดท้าย โมเดลทำได้ การแก้ปัญหาที่แม่นยำ 100% ภายใน 3 นาที

ทีมวิจัย

งานนี้นำโดย Christos Tzamos (ปริญญาเอก MIT รองศาสตราจารย์วิทยาศาสตร์คอมพิวเตอร์มหาวิทยาลัยเอเธนส์ นักวิจัยผู้ก่อตั้ง Percepta) ร่วมกับนักวิจัยอื่นๆ ของ Percepta Percepta เป็นบริษัทเปลี่ยนผ่าน AI ภายใต้ General Catalyst สมาชิกทีมมาจาก Meta FAIR, MIT, Google และสถาบันอื่นๆ

ลิงก์อ้างอิง:
[1] https://x.com/ChristosTzamos/status/2031845134577406426
[2] https://www.percepta.ai/blog/can-llms-be-computers

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง