ทีมสแตนฟอร์ดทำลายกำแพงการให้เหตุผลของโมเดลขนาดใหญ่: กรอบงาน SSD ทำให้การร่างและการตรวจสอบสามารถทำงานคู่ขนานได้ เพิ่มความเร็วการให้เหตุผล 2 เท่า

2026年4月1日 pm4:28 • การอนุมานโมเดลขนาดใหญ่ • 176 views

ในสาขาการอนุมานของโมเดลภาษาขนาดใหญ่ การถอดรหัสเชิงคาดการณ์ (Speculative Decoding, SD) ได้กลายเป็นเทคโนโลยีหลักในการเร่งการสร้าง แต่ขั้นตอนการร่าง (Drafting) และการตรวจสอบ (Verification) ต้องดำเนินการแบบอนุกรม ซึ่งเป็นคอขวดหลักด้านประสิทธิภาพ

เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัยสแตนฟอร์ด มหาวิทยาลัยพรินซ์ตัน และ Together AI ได้เสนอ เฟรมเวิร์ก SSD และอัลกอริทึมการปรับปรุง SAGUARO ซึ่งประสบความสำเร็จในการทำให้ขั้นตอนการร่างและการตรวจสอบทำงานแบบขนานกัน ช่วยเพิ่มประสิทธิภาพการอนุมานได้อย่างมีนัยสำคัญ

ทีมสแตนฟอร์ดทำลายกำแพงการให้เหตุผลของโมเดลขนาดใหญ่: กรอบงาน SSD ทำให้การร่างและการตรวจสอบสามารถทำงานคู่ขนานได้ เพิ่มความเร็วการให้เหตุผล 2 เท่า

ลิงก์บทความวิจัย: https://arxiv.org/pdf/2603.03251
ลิงก์ GitHub: https://github.com/tanishqkumar/ssd

ตามที่ทีมวิจัยระบุ อัลกอริทึมนี้มีอัตราเร็วในการอนุมานเร็วกว่าเอนจินอนุมานชั้นนำในปัจจุบันถึง 2 เท่า

การถอดรหัสเชิงคาดการณ์ซ้อนคาดการณ์ (Speculative Speculative Decoding, ย่อว่า SSD) เป็นนวัตกรรมต่อจากการถอดรหัสเชิงคาดการณ์แบบดั้งเดิม (SD) ใน SD แบบดั้งเดิม โมเดลขนาดเล็กที่รวดเร็ว (โมเดลร่าง) จะคาดเดา token ถัดไปหลายตัวที่โมเดลขนาดใหญ่ (โมเดลเป้าหมาย) อาจสร้างขึ้นก่อน จากนั้นโมเดลเป้าหมายจะตรวจสอบการคาดเดาเหล่านี้ผ่านการส่งต่อข้อมูลไปข้างหน้า (forward pass) หนึ่งครั้ง โดยทั้งสองขั้นตอนดำเนินการตามลำดับ

ในขณะที่ความก้าวหน้าหลักของ SSD คือการทำให้กระบวนการทั้งสองนี้เกิดขึ้นแบบขนานกัน ซึ่งขจัดต้นทุนการรอคอยที่เกิดจากการรันโมเดลร่างโดยสิ้นเชิง

การทำให้การร่างและการตรวจสอบทำงานแบบขนานกันเป็นความท้าทายอย่างมาก เพราะคุณไม่สามารถตรวจสอบเนื้อหาที่ยังไม่ได้สร้าง และไม่สามารถคาดการณ์คำนำหน้าที่ไม่รู้จักได้ วิธีแก้ปัญหาของ SSD คือ: กำหนดผลการตรวจสอบที่เป็นไปได้หลายแบบล่วงหน้า และดำเนินการตรวจสอบและการคาดการณ์สำหรับผลลัพธ์เหล่านี้แบบขนานกันบนฮาร์ดแวร์แยกกัน ทันทีที่ผลการตรวจสอบที่กำหนดไว้ล่วงหน้าตรงกับความเป็นจริง ผลการคาดการณ์ที่สอดคล้องกันก็สามารถมีผลทันที โดยเชื่อมต่อกันอย่างราบรื่น

แม้ว่าบทความวิจัยจะอธิบายอัลกอริทึมอย่างละเอียดในทางทฤษฎี แต่ผู้วิจัยระบุว่าในทางปฏิบัติ พวกเขาใช้เวลาส่วนใหญ่ไปกับการทำให้ SSD ทำงานร่วมกับเทคนิคการปรับปรุงต่างๆ ในเอนจินอนุมายสมัย (เช่น การให้ความสนใจแบบแบ่งหน้า, แคชคำนำหน้า, กราฟ CUDA เป็นต้น) Tanishq Kumar ผู้เขียนกล่าวอย่างตรงไปตรงมาว่า: “ฉันใช้เวลาในการแก้ไขปัญหาการซิงโครไนซ์ระหว่าง CPU/GPU มากกว่าที่คาดไว้มาก”

การทำให้อัลกอริทึมใหม่มีประสิทธิภาพสูงสุด ต้องการการออกแบบระบบและอัลกอริทึมที่ละเอียดอ่อน โดยรวมแล้ว SSD ก้าวหน้าแนวหน้า Pareto ของความล่าช้า-ปริมาณงาน (latency-throughput Pareto frontier) ซึ่งมีความหมายคล้ายกับการถอดรหัสเชิงคาดการณ์ทั่วไปเมื่อเทียบกับอัลกอริทึมการถอดรหัสแบบออโตรีเกรสซีฟมาตรฐาน

Tanishq Kumar แบ่งปันวิสัยทัศน์ของเขา: “ฉันตื่นเต้นกับการอนุมานที่รวดเร็ว เพราะฉันให้ความสนใจอย่างมากกับปริมาณงาน AI ประเภทการอนุมานในโดเมนเวลาที่ยาวมาก (ultra-long time horizon reasoning) ลองจินตนาการถึงศูนย์ข้อมูลที่เต็มไปด้วยชิป B200 กำลังรันโมเดลหนึ่งตัว ต้องประมวลผลโทเค็นหลายพันล้านตัวเพื่อสำรวจการพิสูจน์ ‘ปัญหา P กับ NP’ ในกรณีเช่นนี้ การลดความล่าช้าลงครึ่งหนึ่งหมายถึงการสามารถคิดได้ลึกเป็นสองเท่า!”

SSD ทำให้การร่างและการตรวจสอบทำงานแบบขนานกันได้อย่างไร?

แอปพลิเคชัน AI สมัยใหม่ต้องการความเร็วในการอนุมานสูง แต่การถอดรหัสแบบออโตรีเกรสซีฟมาตรฐานสร้างโทเค็นเดียวตามลำดับ ไม่สามารถใช้ประโยชน์จากความสามารถในการคำนวณแบบขนานของฮาร์ดแวร์ได้อย่างเต็มที่

การถอดรหัสเชิงคาดการณ์ (SD) แก้ไขปัญหานี้บางส่วนโดยแนะนำโมเดลร่างที่รวดเร็วเพื่อทำนายโทเค็นหลายตัว จากนั้นให้โมเดลเป้าหมายตรวจสอบแบบขนาน อย่างไรก็ตาม SD เองยังถูกจำกัดด้วยการพึ่งพาแบบอนุกรม: ต้องรอให้การตรวจสอบในรอบปัจจุบันเสร็จสิ้นก่อน จึงจะเริ่มการร่างในรอบถัดไปได้

SSD มีเป้าหมายเพื่อทำลายการพึ่งพาตามลำดับนี้ ในเฟรมเวิร์ก SSD โมเดลร่างจะทำนายผลการตรวจสอบที่น่าจะเป็นไปได้มากที่สุด และทำการคาดการณ์หลายรอบสำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมดล่วงหน้าและแบบขนาน กระบวนการตรวจสอบดำเนินไปพร้อมกันบนฮาร์ดแวร์แยกกัน ทันทีที่ผลการคาดการณ์ที่เตรียมไว้ล่วงหน้าตรงกับการตรวจสอบจริง ผลลัพธ์นั้นก็สามารถส่งได้ทันที ซึ่งหลีกเลี่ยงต้นทุนการรอคอยในขั้นตอนการร่าง เช่นเดียวกับ SD ผลลัพธ์ที่สร้างโดย SSD ก็ไม่สูญหายเช่นกัน

การปรับปรุงอัลกอริทึม SSD เผชิญกับความท้าทายหลักสามประการ:
1. ความแม่นยำในการทำนาย: โมเดลร่างต้องทำนายผลการตรวจสอบได้อย่างแม่นยำ รวมถึงจำนวนโทเค็นที่ยอมรับและโทเค็นรางวัลที่สุ่มได้
2. การแลกเปลี่ยน: มีการแลกเปลี่ยนที่ละเอียดอ่อนระหว่างอัตราการยอมรับของการคาดการณ์และความสามารถในการทำนายผลการตรวจสอบ ซึ่งต้องจัดการอย่างระมัดระวังเพื่อเพิ่มความเร็วสูงสุด
3. การย้อนกลับเมื่อล้มเหลว: ต้องออกแบบกลยุทธ์การย้อนกลับที่มีประสิทธิภาพเพื่อจัดการกับกรณีที่การทำนายล้มเหลว เพื่อหลีกเลี่ยงไม่ให้ต้นทุนการแก้ไขลบล้างผลประโยชน์จากการทำงานแบบขนาน

เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอ Saguaro ซึ่งเป็นอัลกอริทึม SSD ที่ปรับปรุงเพื่อรับมือกับความท้าทายข้างต้น:
* แปลงการทำนายผลการตรวจสอบเป็นปัญหาการปรับให้เหมาะสมภายใต้ข้อจำกัด และใช้ logits ของโมเดลร่างเพื่อทำนายโทเค็นรางวัล โดยมีความแม่นยำสูงสุดถึง 90%
* พัฒนาอัลกอริทึมการสุ่มตัวอย่างที่สามารถสร้างสมดุลระหว่างความแม่นยำในการทำนายและการสร้างการคาดการณ์ที่มีคุณภาพสูง
* สำรวจกลยุทธ์การย้อนกลับที่เหมาะสมที่สุดซึ่งเปลี่ยนแปลงตามขนาดแบทช์

ผ่านการปรับปรุงดังกล่าว แม้ว่า Saguaro จะมีการคำนวณมากขึ้นสำหรับแต่ละองค์ประกอบในแบทช์ (ถอดรหัสผลลัพธ์ที่เป็นไปได้หลายแบบพร้อมกัน) แต่ประสิทธิภาพของมันยังคงสูงกว่า SD มาตรฐาน 20% โดยรวม Saguaro เร่งความเร็วได้สูงถึง 2 เท่า เมื่อเทียบกับการถอดรหัสเชิงคาดการณ์ที่ปรับปรุงแล้ว และสูงถึง 5 เท่า เมื่อเทียบกับการสร้างแบบออโตรีเกรสซีฟ และยังปรับปรุงแนวหน้า Pareto ของปริมาณงานและความล่าช้าได้อย่างมีนัยสำคัญในขนาดแบทช์ต่างๆ

ยังมีพื้นที่กว้างขวางสำหรับการสำรวจในสาขานี้ SSD สามารถรวมกับเทคนิคต่างๆ เช่น EAGLE, การคาดการณ์แบบต้นไม้โทเค็น (Token-tree speculation) การออกแบบร่วมกันยังคงต้องได้รับการขุดค้นลึกลงไป นอกจากนี้ การเพิ่มจำนวนอุปกรณ์ร่าง ขยายแคชการคาดการณ์ หรือการปรับใช้จุดปลายทางสำหรับการคาดการณ์ร่วมกันในระดับคลัสเตอร์ อาจช่วยลดความล่าช้าได้อีก

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง