Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่นยำที่ต้องการหลายขั้นตอนและบริบทยาว ผลงานยังไม่น่าพอใจ

เพื่อแก้ปัญหานี้ งานวิจัยใหม่ที่ได้รับการชื่นชมจาก Karpathy เสนอวิธีแก้ไขพื้นฐาน: สร้างคอมพิวเตอร์ในตัวโดยตรงภายในโมเดลขนาดใหญ่

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

วิธีนี้ละทิ้งรูปแบบ “เอาท์ซอร์ส” ที่พึ่งพาเครื่องมือภายนอก สร้างสรรค์โดยฝังชุดโปรแกรมที่ปฏิบัติการได้ในน้ำหนักของ Transformer ผ่านการออกแบบหัวความสนใจสองมิติแบบใหม่ ทำให้ประสิทธิภาพการประมวลผลการคำนวณแม่นยำลำดับยาวของโมเดลขนาดใหญ่เพิ่มขึ้นถึงระดับเลขชี้กำลัง แม้บน CPU ทั่วไปก็สามารถสร้างผลลัพธ์แบบสตรีมได้มากกว่า 30,000 โทเค็นต่อวินาที

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ฝังคอมพิวเตอร์ในตัวใน Transformer

แม้โมเดลขนาดใหญ่ล่าสุดจะก้าวข้ามอุปสรรคในงานซับซ้อนมากมาย แต่ในการจัดการปัญหาบริบทยาวที่ต้องการการคำนวณแม่นยำหลายขั้นตอน ความสามารถยังมีข้อจำกัดชัดเจน

อุตสาหกรรมปัจจุบันมีวิธีแก้ไขหลักสองแบบ:
1. เรียกใช้เครื่องมือ: ให้โมเดลสร้างสคริปต์ ส่งให้ตัวแปลภาษาภายนอกดำเนินการแล้วส่งกลับผลลัพธ์
2. จัดสรรเอเจนต์อัจฉริยะ: แบ่งงานผ่านเครื่องสถานะภายนอก เรียกใช้โมเดลแบบวนซ้ำ

ทั้งสองวิธีนี้โดยพื้นฐานคือเพิ่ม “อุปกรณ์เสริม” ให้โมเดล เอาท์ซอร์สความสามารถในการคำนวณ ส่วนกลไกถอดรหัสแบบถดถอยอัตโนมัติของ Transformer มาตรฐาน เนื่องจากต้นทุนการคำนวณเพิ่มขึ้นเชิงเส้นตามความยาวลำดับ ทำให้การคำนวณแม่นยำระยะยาวยากยิ่งขึ้น

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

งานวิจัยของทีม Percepta ข้ามกรอบนี้ไป ทำให้ตัว Transformer กลายเป็นคอมพิวเตอร์โดยตรง

อันดับแรก พวกเขาทำให้ชุด คอมพิวเตอร์ RAM สมัยใหม่และตัวแปลภาษา WebAssembly เกิดขึ้นในน้ำหนักของ Transformer WebAssembly เป็นชุดคำสั่งระดับล่างที่มีประสิทธิภาพสูงและเสถียร สามารถคอมไพล์โค้ดที่เขียนด้วยภาษาเช่น C/C++ เป็นลำดับคำสั่งโทเค็นที่โมเดลรู้จักได้

นั่นหมายความว่า โปรแกรมมาตรฐานใดๆ ก็สามารถทำงานโดยตรงภายในโมเดลได้ ตัวอย่างเช่น เมื่อคำนวณ “3+5” โมเดลจะสร้างคำสั่งโปรแกรมที่สอดคล้องกันก่อน:

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

จากนั้นเปลี่ยนเป็นโหมดถอดรหัสเร็ว ดำเนินการโปรแกรมนั้นทีละขั้นตอนภายใน Transformer และส่งออกกระบวนการดำเนินการแต่ละขั้นตอนในรูปแบบสตรีมโทเค็นแบบเรียลไทม์:

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ผลลัพธ์การคำนวณสร้างขึ้นในสตรีมผลลัพธ์ของโมเดลโดยตรง ไม่ต้องรอเครื่องมือภายนอก และกระบวนการทั้งหมดโปร่งใสสมบูรณ์ ทำให้การคำนวณสามารถตรวจสอบได้

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

หัวความสนใจสองมิติและประสิทธิภาพที่เพิ่มขึ้นระดับเลขชี้กำลัง

เพื่อเพิ่มประสิทธิภาพการทำงานของคอมพิวเตอร์ในตัว ทีมวิจัยออกแบบ หัวความสนใจสองมิติ ที่สร้างสรรค์

ในการออกแบบนี้ เวกเตอร์ Key ของแต่ละโทเค็นในอดีตเป็นสองมิติ ส่วนเวกเตอร์ Query ของขั้นตอนปัจจุบันสามารถมองเป็นทิศทางหนึ่งบนระนาบสองมิติ ดังนั้น การสอบถามความสนใจ (ค้นหา Key ที่ตรงกับ Query มากที่สุด) จึงเปลี่ยนเป็นปัญหาคณิตศาสตร์เชิงเรขาคณิต: บนเปลือกนูนของระนาบสองมิติ ค้นหาจุดที่ไกลที่สุดตามทิศทาง Query

ด้วยโครงสร้างข้อมูลเปลือกนูน โมเดลสามารถบำรุงรักษาเปลือกนูนของ Key ในอดีตแบบไดนามิกขณะสร้างโทเค็น ทำให้ความซับซ้อนของการสอบถามความสนใจแต่ละขั้นตอนลดจาก O(n) เป็น O(log n) HullKVCache ที่ออกแบบบนพื้นฐานหลักการนี้ บน CPU ทั่วไปทำได้ปริมาณงาน 31037 โทเค็นต่อวินาที ดำเนินการลำดับคำสั่งประมาณ 9000 บรรทัดเสร็จใน 1.3 วินาที ประสิทธิภาพเพิ่มขึ้นเกือบ 200 เท่า เมื่อเทียบกับแคช KV แบบดั้งเดิม

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

การออกแบบนี้ใช้ Transformer ของ PyTorch มาตรฐานโดยสมบูรณ์ ไม่ต้องใช้เคอร์เนลเฉพาะหรือหน้ากากเบาบาง 只需กำหนดค่ามิติและจำนวนหัวความสนใจอย่างง่ายก็สามารถนำไปใช้ได้

การตรวจสอบจริง: แก้ปัญหาซูโดกุที่ยากที่สุดได้แม่นยำ 100%

ทีมวิจัยเลือกงานคำนวณแม่นยำระยะยาวสองงานที่เป็นตัวอย่างเพื่อตรวจสอบประสิทธิภาพของวิธีนี้: การจับคู่สมบูรณ์ต้นทุนต่ำสุด 10×10 และ ซูโดกุที่ยากที่สุดในโลก Arto Inkala ที่ยอมรับกัน

ในงานแรก โมเดลดำเนินการอัลกอริทึมฮังการีภายใน สร้างร่องรอยการคำนวณแต่ละขั้นตอนตั้งแต่การจัดสรรแถวไปจนถึงการค้นหาเส้นทางเสริมอย่างชัดเจนในรูปแบบถดถอยอัตโนมัติ สุดท้ายแก้ปัญหาสมการที่ดีที่สุดได้แม่นยำ กระบวนการทั้งหมดบน CPU ทำได้ประสิทธิภาพผลลัพธ์ 33583 โทเค็นต่อวินาที 7301 บรรทัดคำสั่ง

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

เมื่อแก้ปัญหาซูโดกุ Arto Inkala (มีเพียง 21 ตัวเลขคำใบ้) โมเดลทำงานตัวแก้ปัญหาที่คอมไพล์แล้วถูกต้องสมบูรณ์ภายใน ตั้งแต่การแพร่กระจายข้อจำกัดเติมไปจนถึงการลอง ตรวจสอบ ย้อนกลับ ในการค้นหาเชิงลึกแบบลำดับความสำคัญ แต่ละขั้นตอนสร้างในรูปแบบบรรทัดบันทึกที่อ่านได้แบบถดถอยอัตโนมัติ สุดท้าย โมเดลทำได้ การแก้ปัญหาที่แม่นยำ 100% ภายใน 3 นาที

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

ทีมวิจัย

งานนี้นำโดย Christos Tzamos (ปริญญาเอก MIT รองศาสตราจารย์วิทยาศาสตร์คอมพิวเตอร์มหาวิทยาลัยเอเธนส์ นักวิจัยผู้ก่อตั้ง Percepta) ร่วมกับนักวิจัยอื่นๆ ของ Percepta Percepta เป็นบริษัทเปลี่ยนผ่าน AI ภายใต้ General Catalyst สมาชิกทีมมาจาก Meta FAIR, MIT, Google และสถาบันอื่นๆ

ลิงก์อ้างอิง:
[1] https://x.com/ChristosTzamos/status/2031845134577406426
[2] https://www.percepta.ai/blog/can-llms-be-computers


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/26121

Like (0)
Previous 15 hours ago
Next 8 hours ago

相关推荐