นักวิจัย MIT สร้างคอมพิวเตอร์ภายใน Transformer! LLM หมดยุคคำนวณผิดพลาด รันโปรแกรมล้านขั้นตอนในไม่กี่วินาที

3 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 11 views

การสร้างคอมพิวเตอร์ภายใน Transformer: ฝ่าขีดจำกัดการคำนวณของโมเดลขนาดใหญ่

บทนำ
เมื่อเร็วๆ นี้ งานวิจัยจาก Dr. Christos Tzamos แห่ง MIT และทีมของเขา ได้ดึงดูดความสนใจอย่างกว้างขวางในชุมชน AI การศึกษานี้ใช้วิธีการที่สร้างสรรค์ โดยเข้ารหัสอินเทอร์พรีเตอร์ WebAssembly ที่สมบูรณ์ลงในน้ำหนัก (weights) ของโมเดล Transformer โดยตรง ทำให้โมเดลภาษาขนาดใหญ่ (LLM) มีความสามารถในการคำนวณที่แน่นอนและอยู่ภายในตัว โครงการก้าวล้ำนี้มีเป้าหมายเพื่อแก้ไขจุดอ่อนเรื้อรังของ LLM ในการคำนวณที่แม่นยำ (เช่น เลขคณิตพื้นฐาน) ตั้งแต่รากฐาน

นักวิจัย MIT สร้างคอมพิวเตอร์ภายใน Transformer! LLM หมดยุคคำนวณผิดพลาด รันโปรแกรมล้านขั้นตอนในไม่กี่วินาที

ความก้าวหน้าหลัก: จากพยากรณ์เชิงความน่าจะเป็นสู่การดำเนินการที่แน่นอน

โดยดั้งเดิมแล้ว โมเดล Transformer ทำนายโทเค็นถัดไปโดยอิงจากความน่าจะเป็น และไม่ถนัดในการทำงานอัลกอริทึมที่ต้องการขั้นตอนที่แม่นยำ ทีมวิจัยใช้แนวทางที่แตกต่าง โดยไม่ใช่การเชื่อมต่อเครื่องมือภายนอกหรือเรียกใช้โค้ดภายนอก แต่เป็นการแปลงกระบวนการคำนวณเองให้กลายเป็น “เส้นทางที่เพิ่มขึ้นเรื่อยๆ โดยไม่ลดลง” ซึ่ง Transformer สามารถสร้างขึ้นได้แบบออโต้รีเกรสซีฟ

แนวคิดสำคัญ: คอมไพล์โค้ด C ใดๆ ให้เป็นไบต์โค้ด WebAssembly และใช้เป็นข้อมูลฝึกสอน โมเดลเรียนรู้ที่จะสร้างลำดับโทเค็นที่แสดงถึงสถานะของเครื่องเสมือน (virtual machine) รวมถึงตัวชี้คำสั่ง การดำเนินการกับหน่วยความจำ และการคำนวณทางคณิตศาสตร์ ในการอนุมาน (inference) กระบวนการฟอร์เวิร์ดพาสของโมเดลจะเทียบเท่ากับการรันโปรแกรมเครื่องเสมือนนี้ภายในตัว

การนำไปปฏิบัติทางเทคนิค: กลไกความสนใจที่เร่งความเร็วแบบทวีคูณ

เพื่อให้ Transformer รันโปรแกรมได้อย่างมีประสิทธิภาพ ต้องเอาชนะคอขวดเรื่องความเร็วของกลไกความสนใจ (Attention) แบบมาตรฐาน ด้วยเหตุนี้ ทีมจึงคิดค้นเส้นทางการถอดรหัส (decoding path) ใหม่

การมองย้อนกลับแบบคงที่: พวกเขาออกแบบกระบวนการคำนวณให้เป็นเส้นทาง (trajectory) ซึ่งในแต่ละขั้นตอนของการสร้างโทเค็นใหม่ จำเป็นต้องมองย้อนกลับ (Attention) ไปยังตำแหน่งก่อนหน้าเพียงไม่กี่ตำแหน่งที่คงที่ (เช่น สองตำแหน่ง) แทนที่จะเป็นบริบททั้งหมด สิ่งนี้จำลองพฤติกรรมการอ่านรีจิสเตอร์หรือตำแหน่งหน่วยความจำเฉพาะของคอมพิวเตอร์
การสร้างที่รวดเร็วมาก: เนื่องจากการปรับปรุงนี้ ระบบสามารถส่งออกผลการคำนวณแบบสตรีมบน CPU ด้วยความเร็วเกิน 30,000 โทเค็นต่อวินาที ซึ่งเร็วกว่าความเร็วการถอดรหัสของ LLM แบบดั้งเดิมมาก

การแสดงความสามารถ: ชำระล้าง “ความอัปยศด้านการคำนวณ”

เทคโนโลยีนี้ทำให้โมเดลมีความสามารถในการคำนวณที่เชื่อถือได้อย่างที่ไม่เคยมีมาก่อน:
* อัลกอริทึมที่ซับซ้อน: รันโปรแกรมที่ซับซ้อนซึ่งต้องการขั้นตอนนับล้านได้สำเร็จ เช่น การแก้ “ซูโดกุที่ยากที่สุดในโลก” ด้วยความแม่นยำ 100%
* การคำนวณที่แม่นยำ: แก้ไขปัญหาการเปรียบเทียบค่าตัวเลข เช่น “9.11 และ 9.9 อันไหนใหญ่กว่า” ตั้งแต่รากฐาน โดยไม่ต้องพึ่งพาเครื่องคิดเลขภายนอก
* ความเป็นสากล: ในทางทฤษฎีสามารถรันโค้ดใดๆ ก็ตามที่สามารถคอมไพล์เป็น WASM ได้ เปิดทางให้กับการทำงานด้านการคำนวณเชิงตัวเลข การจำลองทางฟิสิกส์ ฯลฯ ภายใน LLM

ความสำคัญเชิงกระบวนทัศน์: ความเป็นไปได้ใหม่ของสถาปัตยกรรมแบบผสม

งานวิจัยนี้เผยให้เห็นศักยภาพของสถาปัตยกรรม LLM แบบผสมชนิดใหม่:
* โครงข่ายประสาทเทียม: รับผิดชอบการให้เหตุผลระดับสูง ความเข้าใจ และการวางแผนงาน
* อินเทอร์พรีเตอร์ที่ฝังตัว: ทำหน้าที่เป็น “เครื่องยนต์คำนวณ” ภายในตัวโมเดล รับผิดชอบการดำเนินการอัลกอริทึมที่แม่นยำสูงและแน่นอน

สถาปัตยกรรมเช่นนี้น่าจะสามารถผสานความสามารถในการให้เหตุผลเชิงลึกและความน่าเชื่อถือในการคำนวณระดับคอมพิวเตอร์ได้พร้อมกัน ก้าวข้ามขอบเขตความสามารถของ LLM ในปัจจุบัน ผู้เชี่ยวชาญในชุมชนเชื่อว่านี่อาจเป็นการวิวัฒนาการที่สำคัญครั้งหนึ่งของกระบวนทัศน์ Transformer

ภูมิหลัง: ความทุกข์ทรมานด้านการคำนวณของ LLM

เป็นเวลานานที่แม้ LLM จะสามารถแก้ปัญหาการให้เหตุผลที่ซับซ้อนได้ แต่กลับทำได้ไม่ดีในด้านเลขคณิตพื้นฐานและการดำเนินการอัลกอริทึมที่แม่นยำ นี่เป็นเพราะว่า Transformer ออกแบบมาโดยพื้นฐานเพื่อจัดการกับกฎทางสถิติของลำดับภาษา ไม่ได้สร้างขึ้นเพื่อการดำเนินการเชิงสัญลักษณ์หรือการคำนวณเชิงตัวเลขที่แม่นยำ วิธีแก้ปัญหาทั่วไปในอุตสาหกรรมคือ “การเรียกใช้เครื่องมือ” แต่สิ่งนี้จะขัดจังหวะการไหลของการให้เหตุผลและนำมาซึ่งความล่าช้าและความเสี่ยงด้านความปลอดภัย

หลักการทำงาน: การแปลงการคำนวณให้เป็นเส้นทาง

กุญแจสำคัญในการเข้าใจระบบนี้อยู่ที่การคิดใหม่เกี่ยวกับรูปแบบการแสดง “การคำนวณ” ทีมวิจัยมองว่าการคำนวณเป็นเส้นทางที่เพิ่มขึ้นเรื่อยๆ โดยไม่ลดลง

อุปมา: จินตนาการถึงสมุดบันทึกหนึ่งเล่ม แต่ละขั้นตอนของการคำนวณถูกเขียนลงในบรรทัดใหม่ สิ่งที่เขียนลงไปแล้วไม่สามารถเปลี่ยนแปลงได้ สมุดบันทึกจะหนาขึ้นเรื่อยๆ สิ่งนี้คล้ายคลึงกับกระบวนการสร้างโทเค็นแบบออโต้รีเกรสซีฟของ Transformer

ตัวอย่าง: การนับจำนวนคำกริยาในประโยคว่าเป็นคู่หรือคี่ ขณะสร้างเส้นทาง ในแต่ละขั้นตอนจำเป็นต้องสนใจเพียงสองตำแหน่ง: คำที่ป้อนเข้ามาปัจจุบัน (พิจารณาว่าเป็นคำกริยาหรือไม่) และโทเค็นก่อนหน้าในเส้นทาง (ดึงสถานะคู่/คี่ปัจจุบัน) ไม่ว่าประโยคจะยาวแค่ไหน จำนวนครั้งที่ต้องมองย้อนกลับในแต่ละขั้นตอนก็คงที่

อัลกอริทึมจำนวนมากสามารถถูกแปลงเป็นรูปแบบเส้นทาง “ในแต่ละขั้นตอนเพียงอ่านตำแหน่งในประวัติศาสตร์จำนวนน้อยและคงที่” นี้ได้ ในระบบนี้ ลำดับโทเค็นที่โมเดลสร้างขึ้นจะสอดคล้องกับการเปลี่ยนแปลงสถานะของเครื่องเสมือน (คำสั่ง, หน่วยความจำ, สแต็ก, ผลลัพธ์) อย่างแม่นยำ โดยการตัดสินใจขั้นตอนถัดไปผ่านการมองย้อนกลับที่จำกัด หลักการทำงานของมันโดยแนวคิดแล้วใกล้เคียงกับเครื่องทัวริง

ลิงก์: https://www.percepta.ai/blog/can-llms-be-computers
งานวิจัยนี้แสดงให้เห็นถึงความเป็นไปได้ในการทำให้เกิดการคำนวณสากลภายใน Transformer มอบเส้นทางเทคโนโลยีใหม่สำหรับการยกระดับความสามารถพื้นฐานของโมเดลขนาดใหญ่

แต่เมื่อเส้นทางการดำเนินการโปรแกรมยาวขึ้น กระบวนการถอดรหัส Transformer แบบมาตรฐานก็ยังคงนำมาซึ่งต้นทุนการคำนวณที่สำคัญ

เพื่อแก้ปัญหานี้ Christos Tzamos และคณะ ได้เสนอเส้นทางการถอดรหัสแบบเร็ว ซึ่งเอาชนะคอขวดนี้ได้อย่างมีประสิทธิภาพ และเงื่อนไขการนำไปปฏิบัติที่สำคัญในนั้น ก็คือข้อจำกัดสองมิติที่กำหนดให้กับเฮดความสนใจ (attention head)

คุณค่าหลักของงานนี้ ไม่ใช่เพียงการยกระดับความสามารถด้านการคำนวณของโมเดลเท่านั้น แต่อยู่ที่ความสามารถในการฝังความสามารถของ “ระบบ” ที่สมบูรณ์ลงในโมเดลโดยตรง

เมื่อ Transformer เริ่มรันโปรแกรมจริงๆ ภายในตัวมันเอง โมเดลภาษาขนาดใหญ่ก็จะไม่เป็นเพียงโมเดลความน่าจะเป็นอีกต่อไป แต่จะคล้ายคลึงกับระบบผสมผสานที่ประกอบด้วยระบบการให้เหตุผลและเครื่องยนต์คำนวณมากกว่า

AI กำลังค่อยๆ วิวัฒนาการไปเป็นระบบที่สมบูรณ์ซึ่งสามารถรันได้ เชื่อมต่อกันได้ และขยายได้

นี่อาจเป็นทิศทางที่แท้จริงของปัญญาประดิษฐ์รุ่นต่อไป

แหล่งข้อมูลอ้างอิง
– https://x.com/mtrainier2020/status/2033640996337291482
– https://www.percepta.ai/blog/can-llms-be-computers