
การขยายขนาดพารามิเตอร์ของโมเดลขนาดใหญ่อย่างต่อเนื่อง ทำให้ต้นทุนการอนุมานกลายเป็นอุปสรรคสำคัญสำหรับบริการ LLM ระดับการผลิต การถอดรหัสแบบคาดเดา (Speculative Decoding, SD) ใช้กลไก “ร่างโดยโมเดลขนาดเล็ก + ตรวจสอบโดยโมเดลขนาดใหญ่” เพื่อนำโทเค็นตัวเลือกหลายตัวเข้าสู่การแพร่กระจายไปข้างหน้าครั้งเดียวของโมเดลเป้าหมายเพื่อตรวจสอบแบบขนาน ซึ่งช่วยบรรเทาปัญหาคอขวดแบบอนุกรมที่มีอยู่ในการถอดรหัสแบบ autoregressive ได้อย่างมีประสิทธิภาพ
อย่างไรก็ตาม จุดสำคัญที่มักถูกมองข้ามคือ การถอดรหัสแบบคาดเดาทำงานได้ดีในสถานการณ์คำขอเดียวหรือการทำงานพร้อมกันต่ำ ไม่ได้หมายความว่าจะยังคงมีประสิทธิภาพในบริการที่มีการทำงานพร้อมกันสูงจริง เมื่อ batch size เพิ่มขึ้น คำขอหลายรายการจะแย่งชิงทรัพยากรการคำนวณตรวจสอบของโมเดลเป้าหมายพร้อมกัน ในเวลานี้ การตรวจสอบโทเค็นที่มีมูลค่าต่ำเพิ่มขึ้นทุกครั้ง อาจส่งผลให้ปริมาณงานลดลงและเวลาแฝงส่วนท้ายเพิ่มขึ้นโดยตรง

เพื่อแก้ไขปัญหานี้ นักวิจัยจากทีมวิศวกรรมพื้นฐานของกลุ่มธุรกิจ ATH-Qianwen ของ Alibaba และมหาวิทยาลัย Zhejiang ได้ร่วมกันเสนอ ECHO (Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios)

- ผู้เขียน: Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
- หน่วยงาน: Alibaba Qwen Applications Business Group; Zhejiang University
- บทความ: ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
- ลิงก์: https://arxiv.org/abs/2604.09603
แนวคิดหลักของ ECHO ไม่ได้มองการสร้างต้นไม้แบบคาดเดาเป็น “การเดาโทเค็นให้มากที่สุด” อีกต่อไป แต่เป็นการสร้างแบบจำลองใหม่เป็นปัญหาการจัดตารางเวลาภายใต้งบประมาณการตรวจสอบที่แน่นอน ภายใต้งบประมาณการตรวจสอบโทเค็นโดยรวมที่เข้มงวด มันจำเป็นต้องตัดสินใจแบบไดนามิก: คำขอใดควรเพิ่มความลึกต่อไป คำขอใดควรถูกตัดให้สั้นลง และงบประมาณใดควรเปลี่ยนไปขยายชุดตัวเลือก
ข้อมูลการทดลองแสดงให้เห็นว่า ในสถานการณ์โหลดสูงที่ BS=256 ECHO สามารถเพิ่มปริมาณงานการอนุมานของโมเดล Qwen3-235B-A22B จาก 2,803 tok/s เป็น 3,207 tok/s เพิ่มขึ้น 14.4% ซึ่งแสดงให้เห็นอย่างชัดเจนว่า เมื่อการคำนวณตรวจสอบ (verification compute) กลายเป็นทรัพยากรที่หายาก การจัดตารางเวลางบประมาณการตรวจสอบอย่างละเอียดสามารถเพิ่มผลประโยชน์ของระบบจากการถอดรหัสแบบคาดเดาได้อย่างมีนัยสำคัญ

1. เหตุใดการถอดรหัสแบบคาดเดาจึงล้มเหลวภายใต้การทำงานพร้อมกันสูง?
การถอดรหัสแบบคาดเดาแบบดั้งเดิมมักตั้งอยู่บนสมมติฐานที่ว่า: ต้นทุนของโมเดลเป้าหมายในการตรวจสอบโทเค็นที่ร่างไว้หลายตัวพร้อมกันนั้นใกล้เคียงกับการแพร่กระจายไปข้างหน้าแบบ autoregressive ทั่วไปหนึ่งครั้ง ดังนั้น ตราบใดที่โทเค็นที่ร่างไว้ได้รับการยอมรับมากพอ ก็จะได้รับความเร่งที่เห็นได้ชัด
อย่างไรก็ตาม ในบริการระดับการผลิต สมมติฐานนี้ไม่ได้เป็นจริงเสมอไป
บทความสังเกตว่า เมื่อโหลดเพิ่มขึ้นและจำนวนโทเค็นที่ต้องตรวจสอบภายใน batch เพิ่มขึ้น การคำนวณตรวจสอบของโมเดลเป้าหมายจะค่อยๆ กลายเป็นคอขวดหลัก ยกตัวอย่าง LLaMA3.3-70B เมื่อ batch size เพิ่มขึ้น ค่าใช้จ่ายในการตรวจสอบของโมเดลเป้าหมายมีแนวโน้มเพิ่มขึ้นอย่างชัดเจน และค่อยๆ เกินต้นทุนการสร้างโทเค็นเดี่ยวแบบ autoregressive สำหรับ Qwen3-235B แม้ว่า EAGLE-3 จะเพิ่มปริมาณงานภายใต้การทำงานพร้อมกันต่ำ แต่เมื่อ batch size เพิ่มขึ้นเป็น 128 ปริมาณงานของมันกลับต่ำกว่า vanilla AR ดั้งเดิม
กล่าวอีกนัยหนึ่ง ในสถานการณ์บริการจริง การถอดรหัสแบบคาดเดาไม่ใช่ “การตรวจสอบโทเค็นเพิ่มเติมโดยไม่มีค่าใช้จ่าย” อีกต่อไป แต่เป็นการเลือก “โทเค็นที่คุ้มค่าที่สุดในการตรวจสอบ” ภายใต้งบประมาณการตรวจสอบที่จำกัด
วิธีการที่มีอยู่ส่วนใหญ่เผชิญกับปัญหาสองประเภท:
- วิธีต้นไม้แบบคงที่: ใช้โครงสร้างคงที่ เรียบง่ายและเสถียร แต่มักสิ้นเปลืองการคำนวณตรวจสอบจำนวนมากบนกิ่งที่มีความเชื่อมั่นต่ำ
- วิธีต้นไม้แบบไดนามิก: พยายามปรับโครงสร้างต้นไม้ออนไลน์ตามความน่าจะเป็นของโทเค็น แต่มักพึ่งพาการตัดสินใจแบบทีละชั้นหรือทีละโหนดที่หนาแน่น สะสมความผิดพลาดได้ง่าย และสร้าง ragged batch ซึ่งยากต่อการปรับให้เข้ากับ serving kernel ที่มีประสิทธิภาพสูง
จุดเริ่มต้นของ ECHO คือ: ในสถานการณ์บริการที่มีการทำงานพร้อมกันสูง ทรัพยากรหลักไม่ใช่ “จำนวนโทเค็นที่ร่างไว้” แต่เป็นงบประมาณการตรวจสอบที่โมเดลเป้าหมายสามารถรับได้ในแต่ละขั้นตอน
2. ECHO: เปลี่ยนการสร้างต้นไม้แบบคาดเดาเป็นการจัดตารางเวลางบประมาณ
แนวคิดหลักของ ECHO สามารถสรุปได้เป็นประโยคเดียว:
ภายใน batch เดียว ให้ถือว่าต้นไม้โทเค็นตัวเลือกของคำขอทั้งหมดเป็น Super-Tree ที่เป็นหนึ่งเดียว และภายใต้งบประมาณการตรวจสอบโดยรวม K_max ให้จัดสรรความลึกและความกว้างอย่างยืดหยุ่น
ในแต่ละขั้นตอนการถอดรหัสแบบคาดเดา batch จะประกอบด้วยคำขอพร้อมกัน B รายการ สำหรับคำขอที่ i สมมติว่าต้นไม้ตัวเลือกที่สร้างขึ้นมีโทเค็นที่ต้องตรวจสอบ K_i โทเค็น ดังนั้น โมเดลเป้าหมายจำเป็นต้องตรวจสอบยูเนียนของโหนดตัวเลือกทั้งหมดใน batch ทั้งหมด ECHO กำหนดข้อจำกัดโดยรวมนี้:

โดยที่ K_max แทนขีดจำกัดการตรวจสอบสูงสุดที่ฮาร์ดแวร์และระบบบริการปัจจุบันสามารถรับได้ใกล้กับบริเวณที่จำกัดด้วยการคำนวณ ด้วยวิธีนี้ การถอดรหัสแบบคาดเดาจะเปลี่ยนจาก “แต่ละคำขอขยายต้นไม้อย่างอิสระ” เป็น “หลายคำขอใช้พูลงบประมาณโดยรวมร่วมกัน”
สิ่งนี้นำมาซึ่งการเปลี่ยนแปลงที่สำคัญ: การจัดสรรโทเค็นตัวเลือกเพิ่มเติมให้กับคำขอหนึ่ง หมายความว่างบประมาณที่มีให้สำหรับคำขออื่นจะลดลงตามไปด้วย ดังนั้น ECHO จึงไม่เพิ่มความลึกของการร่างหรือ top-k อย่างสุ่มสี่สุ่มห้าอีกต่อไป แต่ตัดสินใจแบบไดนามิกว่างบประมาณควรไหลไปที่ใดตามความเชื่อมั่นของคำขอ
3. ประตูควบคุมแบบ稀疏: ตัดสินใจเฉพาะใน sweet spots ที่เชื่อถือได้

จุดยากประการหนึ่งของวิธีต้นไม้แบบไดนามิกคือ: หากตัดสินใจทุกชั้น ทุกโหนด ค่าใช้จ่ายในการควบคุมจะสะสมอย่างรวดเร็ว ที่สำคัญกว่านั้น สัญญาณความเชื่อมั่นในระดับความลึกที่แตกต่างกันไม่ได้เชื่อถือได้เท่ากันทั้งหมด
บทความพบผ่านการวิเคราะห์การกระจายความเชื่อมั่นของโทเค็นที่ได้รับการยอมรับและถูกปฏิเสธว่า: ไม่ใช่ทุกระดับความลึกของการร่างที่เหมาะสมสำหรับการตัดสินใจ ในบางระดับความลึก การกระจายของตัวอย่างที่ยอมรับและปฏิเสธมีความแตกต่างกันสูง บทความเรียกสิ่งเหล่านี้ว่า sweet spots; ในขณะที่ชั้นกลางจำนวนมากมีขอบเขตการกระจายที่คลุมเครือ การตัดสินใจบ่อยครั้งในตำแหน่งเหล่านี้กลับง่ายต่อการนำไปสู่การตัดสินที่ผิดพลาด
ดังนั้น ECHO จึงใช้ Sparse Confidence Gating:
- ทำการควบคุมเฉพาะที่ root, target depth และชั้นกลางที่เลือกแบบปรับตัวได้จำนวนเล็กน้อย
- ระบุตำแหน่งที่มีความแตกต่างสูงผ่านช่วง warm-up/calibration
- ในระหว่างการอนุมาน ตัดสินใจตามความเชื่อมั่นของเส้นทางว่าคำขอปัจจุบันควรเพิ่มความลึก (deepen) หรือตัดให้สั้น (truncate) และปล่อยงบประมาณ
สำหรับชุดตัวเลือกของคำขอที่ i ที่ความลึก d ECHO ใช้ความน่าจะเป็นของเส้นทางที่มีโอกาสสูงสุดเป็นความเชื่อมั่น:

ถ้า ci,d > τd ถือว่าเส้นทางปัจจุบันมีความเชื่อมั่นสูง สามารถขยายไปยังชั้นที่ลึกขึ้นต่อไปได้; มิฉะนั้น ให้ตัดให้สั้นก่อนกำหนด และปล่อยงบประมาณให้กับคำขอที่มีมูลค่าสูงกว่าหรือใช้สำหรับการขยายความกว้างในพื้นที่
4. การจัดตารางเวลางบประมาณแบบยืดหยุ่น: จาก “เดาโทเค็นให้มากขึ้น” เป็น “การจัดสรรงบประมาณการตรวจสอบใหม่”

องค์ประกอบหลักที่สองของ ECHO คือ Unified Elastic Budget Scheduler ภายใต้งบประมาณโดยรวม มันจัดการการจัดสรรทรัพยากรสองประเภทพร้อมกัน:
- การจัดตารางเวลา depth vs. width ภายในคำขอเดียวกัน: เมื่อความเสี่ยงในการขยายความลึกสูง ให้ใช้งบประมาณที่เหลือขยายชุดตัวเลือกที่ระดับความลึกที่ถูกตัดให้สั้น
- การจัดสรรงบประมาณใหม่ระหว่างคำขอที่แตกต่างกัน: เมื่อคำขอที่มีความเชื่อมั่นต่ำบางรายการถูกตัดให้สั้น งบประมาณที่ประหยัดได้จะถูกโอนไปยังคำขอที่มีความเชื่อมั่นสูงอื่นๆ เพื่อใช้ในการเพิ่มความลึกต่อไป
โดยเฉพาะ ECHO ใช้ลำดับความสำคัญสองระดับ:
- Priority 1: Global Depth Extension
หากคำขอใดผ่านการตรวจสอบความเชื่อมั่นที่ sparse gate ให้จัดลำดับความสำคัญในการใช้งบประมาณเพื่อเพิ่มความลึกต่อไป เพื่อลดจำนวนขั้นตอนการตรวจสอบโดยรวมในอนาคต
- Priority 2: Opportunistic Width Expansion
เมื่อคำขอไม่สามารถขยายความลึกด้วยความเชื่อมั่นสูงได้อีก งบประมาณการตรวจสอบที่เหลือจะถูกนำไปใช้ในการขยายชุดตัวเลือกของคำขอที่ถูกตัดให้สั้นแทน เพื่อเพิ่มความน่าจะเป็นในการครอบคลุมโทเค็นที่ถูกต้องที่ระดับความลึกปัจจุบัน
กลไกนี้สามารถปรับให้เข้ากับสถานะงบประมาณการตรวจสอบที่แตกต่างกันได้อย่างเป็นธรรมชาติ:
- ในสถานการณ์โหลดต่ำ งบประมาณการตรวจสอบค่อนข้างเพียงพอ ECHO สามารถจัดสรรงบประมาณที่ประหยัดได้จากการตัดให้สั้นกลับไปยังคำขอปัจจุบัน เพื่อใช้ในการขยายความกว้าง (width expansion)
- เมื่อระบบค่อยๆ เข้าสู่ช่วงที่จำกัดด้วยการคำนวณตรวจสอบ (verification compute-bound) การแข่งขันเพื่อแย่งชิงงบประมาณการตรวจสอบจะรุนแรงขึ้น งบประมาณที่ปล่อยออกมาจากคำขอที่มีความเชื่อมั่นต่ำจะถูกโอนไปยังคำขอที่มีความเชื่อมั่นสูงเป็นอันดับแรก เพื่อใช้ในการขยายความลึกโดยรวม (global depth extension)
นี่คือความหมายของคำว่า “Elastic” (ยืดหยุ่น) ในชื่อ ECHO: มันไม่ได้มุ่งมั่นที่จะลึกหรือกว้างขึ้นอย่างตายตัว แต่ปรับเปลี่ยนแบบไดนามิกระหว่างเอนโทรปีของคำขอ โหลดของ batch และงบประมาณของฮาร์ดแวร์
5. มุ่งสู่การนำไปใช้ในระบบ: การรวม ECHO เข้ากับ SGLang
วิธีต้นไม้แบบคาดเดาแบบไดนามิกหลายวิธี แม้จะทำงานได้ดีในการทดลอง transformer ดั้งเดิม แต่เมื่อนำไปใช้ในเฟรมเวิร์กบริการจริง มักประสบปัญหาความเข้ากันได้กับ ragged batch และ kernel
ECHO แก้ไขปัญหานี้ในระดับระบบโดยเฉพาะ บทความรวม ECHO เข้ากับเฟรมเวิร์กการอนุมานระดับอุตสาหกรรม SGLang และใช้เทคนิค Flatten & Pack เพื่อจัดแพ็คต้นไม้โทเค็นตัวเลือกที่ไม่เป็นระเบียบจากคำขอต่างๆ ให้เป็นเลย์เอาต์ที่กะทัดรัดและเข้ากันได้กับ kernel จากนั้นส่งให้โมเดลเป้าหมายตรวจสอบในครั้งเดียว
ขั้นตอนนี้มีความสำคัญอย่างยิ่ง: หากโครงสร้างต้นไม้แบบไดนามิกที่สร้างโดยอัลกอริทึมไม่สามารถรวมเข้ากับ serving kernel ได้อย่างมีประสิทธิภาพ การประหยัดโทเค็นในทางทฤษฎีอาจถูกหักล้างด้วยค่าใช้จ่ายของระบบ เป้าหมายการออกแบบของ ECHO ไม่ใช่การเพิ่มประสิทธิภาพ MAT แบบจุดเดียว แต่เป็นการเพิ่มปริมาณงานที่มีประสิทธิภาพแบบ end-to-end (end-to-end goodput) ในระบบการอนุมานที่มีการทำงานพร้อมกันสูงจริง
ปัจจุบัน ทีมงานกำลังรวบรวมโค้ดและเอกสารที่เกี่ยวข้องของ ECHO และวางแผนที่จะยื่นคำขอรวม (merge request) ไปยัง SGLang ในเดือนมิถุนายน เพื่อผลักดันการเปิดเผยโค้ด การทำซ้ำโดยชุมชน และการรวมเข้ากับระบบต่อไป
6. การทดลอง: จาก 8B ถึง 235B ผลประโยชน์ในบริเวณที่งบประมาณการตรวจสอบจำกัดชัดเจนกว่า
บทความตรวจสอบ ECHO บนขนาดโมเดลที่หลากหลาย รวมถึง Vicuna-13B, LLaMA-3.1-8B, LLaMA-3.3-70B และ Qwen3 series 8B, 32B, 235B งานครอบคลุม HumanEval, GSM8K, CNN/DM, Alpaca และ MT-Bench การทดลองดำเนินการบน 8×NVIDIA H100 80GB GPU; สถานการณ์โหลดต่ำใช้ HuggingFace transformers สถานการณ์การทำงานพร้อมกันสูงใช้ SGLang
ในการตั้งค่าโหลดต่ำ BS=1 ECHO บรรลุความเร่ง wall-time 1.63× ถึง 5.35× ในทุก benchmark โดยที่:
- บน LLaMA3.3-70B ECHO มีความเร่งสูงสุดถึง 5.35×
- บน Qwen3-235B ECHO มีความเร่งเฉลี่ยถึง 2.02× เหนือกว่า DDD ที่ 1.77× และ EAGLE-3 ที่ 1.69×
- บน Qwen3-32B ECHO เพิ่มขึ้น 15.8% เมื่อเทียบกับวิธีไดนามิกที่เป็นตัวแทน DDD
ช่วงที่มีประสิทธิภาพหลักของ ECHO คือเมื่อการตรวจสอบเป้าหมายค่อยๆ เข้าสู่บริเวณที่จำกัดด้วยการคำนวณ (compute-bound) จากที่เกือบจะขนานโดยไม่มีค่าใช้จ่าย บทความประเมินการกำหนดค่าโมเดล 4 แบบบน MT-Bench, GSM8K, HumanEval และเปรียบเทียบกับ EAGLE-3 และ ECHO สองรูปแบบ ผลลัพธ์แสดงให้เห็นว่า เมื่อการคำนวณตรวจสอบค่อยๆ กลายเป็นทรัพยากรที่หายาก ECHO ยังคงสามารถเพิ่มปริมาณงานได้อย่างเสถียร โดยเพิ่มขึ้นสูงสุดถึง:
- LLaMA3.1-8B: 7.92%
- LLaMA3.3-70B: 12.96%
- Qwen3-8B: 10.00%
- Qwen3-235B: 14.95%
สำหรับโมเดลขนาดใหญ่ระดับอุตสาหกรรมอย่าง Qwen3-235B การคำนวณตรวจสอบจะเข้าสู่บริเวณที่จำกัดด้วยการคำนวณเร็วกว่า ดังนั้นการจัดสรรงบประมาณที่ผิดพลาดจะทำลายปริมาณงานได้เร็วกว่า ECHO โดยการจัดสรรงบประมาณโทเค็นที่ประหยัดได้จากคำขอที่มีความเชื่อมั่นต่ำใหม่ให้กับคำขอที่มีความเชื่อมั่นสูง ที่ BS=256 สามารถเพิ่มปริมาณงานจาก 2,803 tok/s เป็น 3,207 tok/s เพิ่มขึ้น 14.4%
7. การทดลอง消融: เหตุใด sparse gating และ depth-aware threshold จึงสำคัญทั้งคู่

บทความยังเปรียบเทียบ ECHO กับสองรูปแบบที่เรียบง่าย:
- Dense Gating: ดำเนินการตัดสินใจควบคุมในทุกชั้น
- Fixed Threshold: ทุกความลึกใช้เกณฑ์ความเชื่อมั่นเดียวกัน
ผลลัพธ์แสดงให้เห็นว่า ECHO ที่สมบูรณ์ทำงานได้ดีที่สุด เหตุผลคือ:
- Dense Gating แม้จะดูละเอียดกว่า แต่การตัดสินใจบ่อยครั้งในระดับความลึกที่ไม่น่าเชื่อถือทำให้เกิดค่าใช้จ่ายเพิ่มเติมและการตัดสินที่ผิดพลาด
- Fixed Threshold ไม่สามารถปรับตามการเปลี่ยนแปลงความลึกได้ เนื่องจากความน่าจะเป็นของโทเค็นมักจะลดลงตามความลึก เกณฑ์เดียวอาจตัดแต่งมากเกินไปในชั้นลึก หรือใส่โทเค็นที่มีมูลค่าต่ำมากเกินไปในชั้นตื้น
ในการตั้งค่า LLaMA3.1-8B, BS=256 Dense Gating มีปริมาณงานต่ำกว่า ECHO ประมาณ 5%; บน Qwen3-235B ECHO เพิ่มขึ้น 5.3% เมื่อเทียบกับ Fixed Threshold (จาก 3,046 เป็น 3,207 tok/s)
บทสรุป: การถอดรหัสแบบคาดเดาเข้าสู่ “ยุคแห่งงบประมาณ”
ความสำคัญของ ECHO ไม่ได้อยู่ที่การเสนอกลยุทธ์ต้นไม้แบบคาดเดาแบบไดนามิกใหม่เท่านั้น แต่ยังรวมถึงการให้ข้อสังเกตเชิงลึกที่มุ่งสู่สภาพแวดล้อมการผลิต: ในการอนุมานโมเดลขนาดใหญ่ที่มีการทำงานพร้อมกันสูง แกนหลักของการถอดรหัสแบบคาดเดาไม่ใช่ “ยิ่งเดาได้มากยิ่งดี” อีกต่อไป แต่คือ “ภายใต้งบประมาณการตรวจสอบที่แน่นอน ทำให้โทเค็นที่ถูกตรวจสอบทุกตัวมีมูลค่ามากขึ้น” ผ่านมุมมอง Super-Tree, Sparse Confidence Gating, Elastic Budget Scheduling และการนำไปใช้ในระบบที่มุ่งสู่ SGLang ECHO ได้ผลักดันการถอดรหัสแบบคาดเดาจากการเพิ่มประสิทธิภาพโครงสร้างต้นไม้ในพื้นที่ ไปสู่การจัดตารางเวลางบประมาณระดับ batch โดยนำเสนอแนวทางใหม่สำหรับการเร่งความเร็วในการถอดรหัสในบริการโมเดลขนาดใหญ่ที่มีการทำงานพร้อมกันสูง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34624
