Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่นยำที่ต้องการหลายขั้นตอนและบริบทยาว ผลงานยังไม่น่าพอใจ

เพื่อแก้ปัญหานี้ งานวิจัยใหม่ที่ได้รับการชื่นชมจาก Karpathy เสนอวิธีแก้ไขพื้นฐาน: สร้างคอมพิวเตอร์ในตัวโดยตรงภายในโมเดลขนาดใหญ่

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

วิธีนี้ละทิ้งรูปแบบ “เอาท์ซอร์ส” ที่พึ่งพาเครื่องมือภายนอก สร้างสรรค์โดยฝังชุดโปรแกรมที่ปฏิบัติการได้ในน้ำหนักของ Transformer ผ่านการออกแบบหัวความสนใจสองมิติแบบใหม่ ทำให้ประสิทธิภาพการประมวลผลการคำนวณแม่นยำลำดับยาวของโมเดลขนาดใหญ่เพิ่มขึ้นถึงระดับเลขชี้กำลัง แม้บน CPU ทั่วไปก็สามารถสร้างผลลัพธ์แบบสตรีมได้มากกว่า 30,000 โทเค็นต่อวินาที

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ฝังคอมพิวเตอร์ในตัวใน Transformer

แม้โมเดลขนาดใหญ่ล่าสุดจะก้าวข้ามอุปสรรคในงานซับซ้อนมากมาย แต่ในการจัดการปัญหาบริบทยาวที่ต้องการการคำนวณแม่นยำหลายขั้นตอน ความสามารถยังมีข้อจำกัดชัดเจน

อุตสาหกรรมปัจจุบันมีวิธีแก้ไขหลักสองแบบ:
1. เรียกใช้เครื่องมือ: ให้โมเดลสร้างสคริปต์ ส่งให้ตัวแปลภาษาภายนอกดำเนินการแล้วส่งกลับผลลัพธ์
2. จัดสรรเอเจนต์อัจฉริยะ: แบ่งงานผ่านเครื่องสถานะภายนอก เรียกใช้โมเดลแบบวนซ้ำ

ทั้งสองวิธีนี้โดยพื้นฐานคือเพิ่ม “อุปกรณ์เสริม” ให้โมเดล เอาท์ซอร์สความสามารถในการคำนวณ ส่วนกลไกถอดรหัสแบบถดถอยอัตโนมัติของ Transformer มาตรฐาน เนื่องจากต้นทุนการคำนวณเพิ่มขึ้นเชิงเส้นตามความยาวลำดับ ทำให้การคำนวณแม่นยำระยะยาวยากยิ่งขึ้น

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

งานวิจัยของทีม Percepta ข้ามกรอบนี้ไป ทำให้ตัว Transformer กลายเป็นคอมพิวเตอร์โดยตรง

อันดับแรก พวกเขาทำให้ชุด คอมพิวเตอร์ RAM สมัยใหม่และตัวแปลภาษา WebAssembly เกิดขึ้นในน้ำหนักของ Transformer WebAssembly เป็นชุดคำสั่งระดับล่างที่มีประสิทธิภาพสูงและเสถียร สามารถคอมไพล์โค้ดที่เขียนด้วยภาษาเช่น C/C++ เป็นลำดับคำสั่งโทเค็นที่โมเดลรู้จักได้

นั่นหมายความว่า โปรแกรมมาตรฐานใดๆ ก็สามารถทำงานโดยตรงภายในโมเดลได้ ตัวอย่างเช่น เมื่อคำนวณ “3+5” โมเดลจะสร้างคำสั่งโปรแกรมที่สอดคล้องกันก่อน:

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

จากนั้นเปลี่ยนเป็นโหมดถอดรหัสเร็ว ดำเนินการโปรแกรมนั้นทีละขั้นตอนภายใน Transformer และส่งออกกระบวนการดำเนินการแต่ละขั้นตอนในรูปแบบสตรีมโทเค็นแบบเรียลไทม์:

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ผลลัพธ์การคำนวณสร้างขึ้นในสตรีมผลลัพธ์ของโมเดลโดยตรง ไม่ต้องรอเครื่องมือภายนอก และกระบวนการทั้งหมดโปร่งใสสมบูรณ์ ทำให้การคำนวณสามารถตรวจสอบได้

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

หัวความสนใจสองมิติและประสิทธิภาพที่เพิ่มขึ้นระดับเลขชี้กำลัง

เพื่อเพิ่มประสิทธิภาพการทำงานของคอมพิวเตอร์ในตัว ทีมวิจัยออกแบบ หัวความสนใจสองมิติ ที่สร้างสรรค์

ในการออกแบบนี้ เวกเตอร์ Key ของแต่ละโทเค็นในอดีตเป็นสองมิติ ส่วนเวกเตอร์ Query ของขั้นตอนปัจจุบันสามารถมองเป็นทิศทางหนึ่งบนระนาบสองมิติ ดังนั้น การสอบถามความสนใจ (ค้นหา Key ที่ตรงกับ Query มากที่สุด) จึงเปลี่ยนเป็นปัญหาคณิตศ