Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า
ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่นยำที่ต้องการหลายขั้นตอนและบริบทยาว ผลงานยังไม่น่าพอใจ
เพื่อแก้ปัญหานี้ งานวิจัยใหม่ที่ได้รับการชื่นชมจาก Karpathy เสนอวิธีแก้ไขพื้นฐาน: สร้างคอมพิวเตอร์ในตัวโดยตรงภายในโมเดลขนาดใหญ่

วิธีนี้ละทิ้งรูปแบบ “เอาท์ซอร์ส” ที่พึ่งพาเครื่องมือภายนอก สร้างสรรค์โดยฝังชุดโปรแกรมที่ปฏิบัติการได้ในน้ำหนักของ Transformer ผ่านการออกแบบหัวความสนใจสองมิติแบบใหม่ ทำให้ประสิทธิภาพการประมวลผลการคำนวณแม่นยำลำดับยาวของโมเดลขนาดใหญ่เพิ่มขึ้นถึงระดับเลขชี้กำลัง แม้บน CPU ทั่วไปก็สามารถสร้างผลลัพธ์แบบสตรีมได้มากกว่า 30,000 โทเค็นต่อวินาที

ฝังคอมพิวเตอร์ในตัวใน Transformer
แม้โมเดลขนาดใหญ่ล่าสุดจะก้าวข้ามอุปสรรคในงานซับซ้อนมากมาย แต่ในการจัดการปัญหาบริบทยาวที่ต้องการการคำนวณแม่นยำหลายขั้นตอน ความสามารถยังมีข้อจำกัดชัดเจน
อุตสาหกรรมปัจจุบันมีวิธีแก้ไขหลักสองแบบ:
1. เรียกใช้เครื่องมือ: ให้โมเดลสร้างสคริปต์ ส่งให้ตัวแปลภาษาภายนอกดำเนินการแล้วส่งกลับผลลัพธ์
2. จัดสรรเอเจนต์อัจฉริยะ: แบ่งงานผ่านเครื่องสถานะภายนอก เรียกใช้โมเดลแบบวนซ้ำ
ทั้งสองวิธีนี้โดยพื้นฐานคือเพิ่ม “อุปกรณ์เสริม” ให้โมเดล เอาท์ซอร์สความสามารถในการคำนวณ ส่วนกลไกถอดรหัสแบบถดถอยอัตโนมัติของ Transformer มาตรฐาน เนื่องจากต้นทุนการคำนวณเพิ่มขึ้นเชิงเส้นตามความยาวลำดับ ทำให้การคำนวณแม่นยำระยะยาวยากยิ่งขึ้น

งานวิจัยของทีม Percepta ข้ามกรอบนี้ไป ทำให้ตัว Transformer กลายเป็นคอมพิวเตอร์โดยตรง
อันดับแรก พวกเขาทำให้ชุด คอมพิวเตอร์ RAM สมัยใหม่และตัวแปลภาษา WebAssembly เกิดขึ้นในน้ำหนักของ Transformer WebAssembly เป็นชุดคำสั่งระดับล่างที่มีประสิทธิภาพสูงและเสถียร สามารถคอมไพล์โค้ดที่เขียนด้วยภาษาเช่น C/C++ เป็นลำดับคำสั่งโทเค็นที่โมเดลรู้จักได้
นั่นหมายความว่า โปรแกรมมาตรฐานใดๆ ก็สามารถทำงานโดยตรงภายในโมเดลได้ ตัวอย่างเช่น เมื่อคำนวณ “3+5” โมเดลจะสร้างคำสั่งโปรแกรมที่สอดคล้องกันก่อน:

จากนั้นเปลี่ยนเป็นโหมดถอดรหัสเร็ว ดำเนินการโปรแกรมนั้นทีละขั้นตอนภายใน Transformer และส่งออกกระบวนการดำเนินการแต่ละขั้นตอนในรูปแบบสตรีมโทเค็นแบบเรียลไทม์:

ผลลัพธ์การคำนวณสร้างขึ้นในสตรีมผลลัพธ์ของโมเดลโดยตรง ไม่ต้องรอเครื่องมือภายนอก และกระบวนการทั้งหมดโปร่งใสสมบูรณ์ ทำให้การคำนวณสามารถตรวจสอบได้

หัวความสนใจสองมิติและประสิทธิภาพที่เพิ่มขึ้นระดับเลขชี้กำลัง
เพื่อเพิ่มประสิทธิภาพการทำงานของคอมพิวเตอร์ในตัว ทีมวิจัยออกแบบ หัวความสนใจสองมิติ ที่สร้างสรรค์
ในการออกแบบนี้ เวกเตอร์ Key ของแต่ละโทเค็นในอดีตเป็นสองมิติ ส่วนเวกเตอร์ Query ของขั้นตอนปัจจุบันสามารถมองเป็นทิศทางหนึ่งบนระนาบสองมิติ ดังนั้น การสอบถามความสนใจ (ค้นหา Key ที่ตรงกับ Query มากที่สุด) จึงเปลี่ยนเป็นปัญหาคณิตศ
