Kimi เปิดตัว PrFaaS แนวทางใหม่: ทำให้การจัดตารางการอนุมานโมเดลขนาดใหญ่ข้ามศูนย์ข้อมูลเป็นจริงได้ เพิ่มปริมาณงาน 54%

9 hours ago • การอนุมานโมเดลขนาดใหญ่ • 14 views

Kimi ซึ่งมีความสามารถด้านบริบทยาวในระดับสูงสุด ล่าสุดได้ร่วมมือกับทีมจากมหาวิทยาลัยชิงหวา และประสบความสำเร็จอย่างสำคัญในด้านสถาปัตยกรรมการให้เหตุผลของโมเดลขนาดใหญ่

พวกเขาได้เสนอแนวทางใหม่ชื่อ Prefill-as-a-Service (PrFaaS) ซึ่งก็คือ “การเติมข้อมูลล่วงหน้าในรูปแบบบริการ” ความก้าวหน้าหลักอยู่ที่การทำให้ KV Cache สามารถส่งผ่านข้ามศูนย์ข้อมูลได้เป็นครั้งแรก ส่งผลให้ขั้นตอน Prefill (การเติมข้อมูลล่วงหน้า) และ Decode (การถอดรหัส) ในการให้เหตุผลของโมเดลขนาดใหญ่ถูกแยกออกจากกันโดยสมบูรณ์ และสามารถจัดตารางให้ทำงานบนคลัสเตอร์ฮาร์ดแวร์ที่ต่างชนิดกันได้

นั่นหมายความว่า งาน Prefill และ Decode สามารถถูกปรับใช้และทำงานร่วมกันข้ามเมืองหรือภูมิภาคได้ โดยเฉพาะเมื่อประมวลผลข้อความยาว ยิ่งบริบทยาวเท่าไร โครงสร้างนี้ก็ยิ่งแสดงข้อได้เปรียบมากขึ้นเท่านั้น

Kimi เปิดตัว PrFaaS แนวทางใหม่: ทำให้การจัดตารางการอนุมานโมเดลขนาดใหญ่ข้ามศูนย์ข้อมูลเป็นจริงได้ เพิ่มปริมาณงาน 54%

งานวิจัยนี้เป็นผลงานร่วมกันระหว่าง Moonshot AI และทีมของศาสตราจารย์เหว่ยหมิน เจิ้ง (Weimin Zheng) และศาสตราจารย์หย่งเว่ย อู่ (Yongwei Wu) จากมหาวิทยาลัยชิงหวา จากการทดสอบจริงบนโมเดลความสนใจแบบผสมพารามิเตอร์ 1T ภายใน พบว่า สถาปัตยกรรม PrFaaS-PD นี้ได้ผลลัพธ์ที่น่าทึ่ง:

เมื่อเทียบกับแผนการปรับใช้ PD แบบดั้งเดิมที่ใช้ฮาร์ดแวร์ชนิดเดียวกัน ปริมาณงาน (Throughput) เพิ่มขึ้น 54% และความล่าช้า P90 ลดลงอย่างมากถึง 64%
แม้จะเทียบกับแผนการใช้งานฮาร์ดแวร์ต่างชนิดกันแบบง่ายที่ไม่ได้มีการจัดตารางงานอัจฉริยะ ปริมาณงานก็ยังเพิ่มขึ้น 32%
การส่งผ่าน KV Cache ข้ามศูนย์ข้อมูลใช้แบนด์วิธเครือข่ายเพียงประมาณ 13Gbps ซึ่งต่ำกว่าขีดจำกัดปกติของอีเธอร์เน็ตที่ 100Gbps มาก ทำให้สามารถรองรับได้อย่างมั่นคงด้วยอีเธอร์เน็ตเชิงพาณิชย์ทั่วไป

แล้วหลักการทางเทคนิคเบื้องหลังนี้คืออะไร?

ทำไมต้องมีการจัดตารางงานข้ามศูนย์ข้อมูล?

การแยก Prefill และ Decode (PD Separation) ได้กลายเป็นวิธีมาตรฐานในอุตสาหกรรมสำหรับบริการให้เหตุผลของโมเดลขนาดใหญ่ แต่นี่ก็สร้างข้อจำกัดสำคัญขึ้นมา: การส่งผ่าน KV Cache ต้องพึ่งพาเครือข่าย RDMA ที่มีแบนด์วิธสูงและความล่าช้าต่ำมาก ซึ่งบังคับให้ขั้นตอน Prefill และ Decode ต้องถูก “ผูกมัด” ไว้ภายในคลัสเตอร์เดียวกันที่ติดตั้ง RDMA

การผูกมัดที่แข็งแกร่งนี้ทำให้การจัดสรรทรัพยากรขาดความยืดหยุ่น ชิปที่เหมาะสมที่สุดสำหรับการคำนวณที่ซับซ้อน (Prefill) และชิปที่เหมาะสมที่สุดสำหรับการสร้างลำดับ (Decode) หากอยู่ในศูนย์ข้อมูลที่ต่างกัน (หรือ “ต่างสถานที่”) ก็จะไม่สามารถทำงานร่วมกันได้อย่างมีประสิทธิภาพ หากพยายามบีบให้ฮาร์ดแวร์ต่างชนิดกันอยู่ในศูนย์ข้อมูลเดียวกัน ก็จะทำให้อัตราส่วนทรัพยากรตายตัว ไม่สามารถตอบสนองต่อความผันผวนของปริมาณงานได้อย่างยืดหยุ่น และมักจะเกิดปัญหาที่ฮาร์ดแวร์บางส่วนรับงานเกิน ขณะที่อีกส่วนว่างเปล่า ส่งผลให้อัตราการใช้ประโยชน์จากพลังการคำนวณโดยรวมต่ำ

สาเหตุพื้นฐานของปัญหานี้อยู่ที่ “กำแพงแบนด์วิธ” ของ KV Cache ทีมวิจัยได้วิเคราะห์เชิงปริมาณโดยใช้โมเดล MiniMax-M2.5 ซึ่งเป็นโมเดลที่มีโครงสร้าง GQA แบบหนาแน่นเป็นตัวอย่าง: ที่ความยาวบริบท 32K tokens อัตราการสร้าง KV Cache ของอินสแตนซ์เดียวสูงถึง 60Gbps ในขณะที่แบนด์วิธของอีเธอร์เน็ตข้ามศูนย์ข้อมูลมักอยู่ที่ 10-100Gbps การพยายามส่งข้อมูลที่เกิดจาก KV Cache ผ่านเครือข่ายหลังนี้ ก็เหมือนกับ “ใช้ท่อเล็กๆ รับน้ำจากสายดับเพลิง” ซึ่งไม่สามารถตอบสนองความต้องการได้เลย

ดังนั้น เพื่อให้แน่ใจว่ากระบวนการให้เหตุผลไม่ติดขัด สถาปัตยกรรม PD Separation แบบดั้งเดิมจึงถูกจำกัดให้อยู่ภายในโดเมนเครือข่าย RDMA เท่านั้น

จุดเปลี่ยนเกิดขึ้นบนสถาปัตยกรรมโมเดลความสนใจแบบผสมรุ่นใหม่ เมื่อไม่นานมานี้ โมเดลต่างๆ เช่น Kimi Linear, Qwen 3.5, MiMo-V2-Flash, Ring-2.5 ได้นำ สถาปัตยกรรมที่ผสมระหว่างความสนใจเชิงเส้น (Linear Attention) และความสนใจเต็มรูปแบบ (Full Attention) มาใช้ ในสถาปัตยกรรมเช่นนี้ มีเพียงชั้นความสนใจเต็มรูปแบบเท่านั้นที่สร้าง KV Cache ที่เติบโตตามความยาวบริบท ในขณะที่ชั้นความสนใจเชิงเส้นจะส่งออกเฉพาะสถานะแบบวนซ้ำ (Recurrent State) ที่มีขนาดคงที่

สิ่งนี้ให้ผลลัพธ์ที่ชัดเจน: ที่ความยาวบริบท 32K tokens
* อัตราการส่งผ่าน KV ของ MiMo-V2-Flash ลดลงเหลือ 4.66Gbps ซึ่งต่ำกว่า MiniMax-M2.5 ถึง 13 เท่า
* 8.25Gbps ของ Qwen3.5-397B เมื่อเทียบกับ 33.35Gbps ของโมเดลหนาแน่นขนาดเดียวกันแล้ว ลดลง 4 เท่า
* โมเดล Ring-2.5-1T ผ่านการบีบอัด MLA และอัตราส่วนผสม 7:1 ช่วยประหยัดหน่วยความจำ KV โดยรวมได้ประมาณ 36 เท่า

สถาปัตยกรรมความสนใจแบบผสมประสบความสำเร็จในการลดความต้องการอัตราการส่งผ่าน KV Cache จาก ระดับ RDMA ลงมาอยู่ในระดับอีเธอร์เน็ต ทำให้การแยก PD ข้ามศูนย์ข้อมูลเปลี่ยนจาก “เป็นไปไม่ได้” เป็น “เป็นไปได้”

ทางออก: สถาปัตยกรรม PrFaaS

การปรับปรุงเฉพาะสถาปัตยกรรมโมเดลยังไม่เพียงพอ การจะทำให้การให้เหตุผลข้ามศูนย์ข้อมูลเกิดขึ้นจริงได้ ยังต้องการสถาปัตยกรรมระบบที่สมบูรณ์ ด้วยเหตุนี้ ทีมวิจัยจึงเสนอ PrFaaS (Prefill-as-a-Service)

นี่คือสถาปัตยกรรมบริการให้เหตุผลโมเดลขนาดใหญ่ข้ามศูนย์ข้อมูล แนวคิดหลักคือ: ถ่ายโอนงานคำนวณ Prefill ของคำขอที่มีบริบทยาว แบบเลือกได้ ไปยังคลัสเตอร์เฉพาะทางที่ประกอบด้วยชิปที่เน้นพลังคำนวณ (เช่น H200) จากนั้นส่ง KV Cache ที่สร้างขึ้นผ่านอีเธอร์เน็ตทั่วไปไปยังคลัสเตอร์ PD ในพื้นที่ของผู้ใช้ เพื่อทำการ Decode ต่อไป

ในขั้นตอนการทำงานโดยเฉพาะ ระบบจะกำหนดเกณฑ์ความยาวแบบไดนามิก t
* คำขอสั้น (ความยาวบริบทที่ยังไม่ถูกแคช ≤ t): ดำเนินกระบวนการ Prefill และ Decode ทั้งหมดในคลัสเตอร์ PD ในพื้นที่
* คำขอยาว (ความยาวบริบทที่ยังไม่ถูกแคช > t): จะถูกส่งไปยังคลัสเตอร์ PrFaaS เฉพาะทางเพื่อดำเนินการ Prefill และ KV Cache ที่สร้างขึ้นจะถูกส่งกลับผ่านอีเธอร์เน็ตไปยังคลัสเตอร์ในพื้นที่เพื่อทำการ Decode

เกณฑ์ t นี้จะถูกปรับอัตโนมัติตามแบนด์วิธเครือข่ายแบบเรียลไทม์และการกระจายความยาวของคำขอ เพื่อให้ได้การจัดตารางงานที่เหมาะสมที่สุด

สถาปัตยกรรม PrFaaS ทำงานร่วมกันด้วยสามระบบย่อย:

1. ชั้นการคำนวณ
* คลัสเตอร์ PrFaaS: ใช้ชิปพลังคำนวณระดับสูง เช่น H200 มุ่งเน้นการคำนวณ Prefill สำหรับบริบทยาวโดยเฉพาะ
* คลัสเตอร์ PD ในพื้นที่: ใช้ชิปที่ปรับให้เหมาะกับแบนด์วิธ เช่น H20 มุ่งเน้นการ Decode และ Prefill สำหรับคำขอสั้น

ฮาร์ดแวร์ทั้งสองประเภทสามารถขยายหรือลดขนาดได้อย่างอิสระตามความต้องการ เพื่อให้ “แต่ละอย่างทำหน้าที่ของตนได้อย่างเชี่ยวชาญ”

2. ชั้นเครือข่าย
* ภายในคลัสเตอร์ใช้ RDMA เพื่อรับประกันการสื่อสารที่มีความล่าช้าต่ำ
* ข้ามศูนย์ข้อมูลจะส่งผ่าน KV Cache โดยใช้ VPC หรือ leased line ผ่านอีเธอร์เน็ตทั่วไป ซึ่งช่วยลดความยากและต้นทุนในการปรับใช้ได้อย่างมาก สภาพแวดล้อมทดสอบจริงใช้ VPC 100Gbps ซึ่งแม้จะต่ำกว่า RDMA ที่ 800Gbps มาก แต่ก็เพียงพออย่างสมบูรณ์แล้ว

3. ชั้นจัดเก็บ (พูลแคชแบบผสมสำหรับ Prefix)
นี่คือการออกแบบที่สำคัญในสถาปัตยกรรม ทีมงานแบ่งการจัดการ KV Cache เป็นสองประเภท:
* บล็อก Prefix-cache: นำกลับมาใช้ใหม่ภายในคลัสเตอร์ ต้องจัดเรียงบล็อกให้ตรงกันจึงจะเข้าถึงได้ (hit) ใช้เพื่อเพิ่มประสิทธิภาพการคำนวณซ้ำในพื้นที่
* บล็อก Transfer-cache: ออกแบบมาเฉพาะสำหรับการส่งผ่านข้ามคลัสเตอร์ ใช้แล้วทิ้ง ไม่ใช้พื้นที่จัดเก็บในระยะยาว

การออกแบบเช่นนี้เป็นเพราะ KV Cache ของโมเดลแบบผสมนั้นไม่เหมือนกัน: สถานะแบบวนซ้ำของชั้นเชิงเส้นมีขนาดคงที่และเป็นระดับคำขอ ในขณะที่ KV Cache ของชั้นความสนใจเต็มรูปแบบเป็นระดับบล็อก การจัดการด้วยพูลแบบรวมศูนย์สามารถนำแคชในพื้นที่กลับมาใช้ใหม่ได้อย่างมีประสิทธิภาพ และยังรองรับการส่งผ่านข้ามคลัสเตอร์ได้อย่างยืดหยุ่น

นอกจากนี้ เพื่อรับประกันความเสถียรของสภาพแวดล้อมการผลิต PrFaaS ยังออกแบบ อัลกอริทึมการจัดตารางงานแบบสองมาตราส่วนเวลา:
* การจัดตารางระยะสั้น (ระดับมิลลิวินาที): ตัดสินใจเส้นทาง (routing) แบบเรียลไทม์ตามแบนด์วิธและสถานะแคช เมื่อตรวจพบว่าแบนด์วิธขาออกของ PrFaaS ใกล้ถึงขีดจำกัด จะปรับเพิ่มเกณฑ์ t โดยอัตโนมัติ เพื่อลดปริมาณการรับส่งข้อมูลข้ามศูนย์ สำหรับคำขอที่มีแคช จะชั่งน้ำหนักระหว่างตำแหน่งแคชและสภาพแบนด์วิธ เพื่อตัดสินใจว่าจะใช้แคชในพื้นที่หรือดึงจากระยะไกล
* การจัดตารางระยะยาว (ระดับนาที): ปรับการจัดสรรทรัพยากรแบบไดนามิกตามความลึกของคิวและอัตราการใช้ทรัพยากรในแต่ละขั้นตอน เมื่อ Prefill กลายเป็นจุดคอขวด สามารถเปลี่ยนโหนด PD ในพื้นที่บางส่วนให้ทำหน้าที่ Prefill ได้ และในทางกลับกันก็ได้ เพื่อปรับให้เข้ากับการเปลี่ยนแปลงของปริมาณงานที่ค่อยเป็นค่อยไป

จากทฤษฎีสู่การปฏิบัติทางวิศวกรรม

เพื่อยืนยันความสามารถในการนำไปปฏิบัติจริงของสถาปัตยกรรม PrFaaS ทีมวิจัยได้ออกแบบการทดลองควบคุมที่เข้มงวดโดยอิงจากการกำหนดค่าขั้นการผลิต

การทดลองใช้ โมเดลความสนใจแบบผสมพารามิเตอร์ 1T ที่พัฒนาภายใน (สถาปัตยกรรมสอดคล้องกับ Kimi Linear อัตราส่วนระหว่างชั้นความสนใจเชิงเส้นและความสนใจเต็มรูปแบบคือ 7:1) และทำการบีบอัด KV Cache อย่างมีประสิทธิภาพ

การกำหนดค่าฮาร์ดแวร์:
- คลัสเตอร์ PrFaaS: ติดตั้ง GPU H200 จำนวน 32 ตัว สำหรับ Prefill บริบทยาวโดยเฉพาะ
- คลัสเตอร์ PD ในพื้นที่: ติดตั้ง GPU H20 จำนวน 64 ตัว สำหรับการ Decode และการประมวลผลคำขอสั้น
สภาพแวดล้อมเครือข่าย: การเชื่อมต่อข้ามศูนย์ข้อมูลใช้ VPC 100Gbps เพื่อจำลองสภาพแวดล้อมคลาวด์จริง
ปริมาณงาน: ความยาวของคำขอสอดคล้องกับการกระจายแบบล็อกนอร์มอลที่ถูกตัดทอน ค่าเฉลี่ยประมาณ 27K tokens ซึ่งใกล้เคียงกับสถานการณ์บริการบริบทยาวจริง

ผลการทดลองยืนยันประสิทธิผลทางวิศวกรรมของสถาปัตยกรรม PrFaaS-PD:
* เมื่อเทียบกับคลัสเตอร์ PD แบบใช้ฮาร์ดแวร์ชนิดเดียวกันที่มีขนาดฮาร์ดแวร์เท่ากัน ปริมาณงานเพิ่มขึ้น 54%
* เมื่อเทียบกับการปรับใช้ฮาร์ดแวร์ต่างชนิดกันแบบง่ายที่ไม่ได้มีการจัดตารางงานอัจฉริยะ ปริมาณงานยังเพิ่มขึ้น 32%

ในด้านความล่าช้าแบบ end-to-end ผลการปรับปรุงที่สถาปัตยกรรม PrFaaS-PD นำมามีความโดดเด่นยิ่งกว่า ความล่าช้า P90 TTFT (Time To First Token) ลดลงถึง 64% คำขอยาวไม่ต้องแย่งชิงทรัพยากร Prefill ในพื้นที่กับคำขอสั้นอีกต่อไป ปัญหาการบล็อกคอยและการแออัดในการคำนวณได้รับการบรรเทาลงอย่างมาก

ความเป็นไปได้ทางวิศวกรรมก็มีความสำคัญเช่นกัน ข้อมูลการทดลองแสดงให้เห็นว่าแบนด์วิธขาออกเฉลี่ยของคลัสเตอร์ PrFaaS ใช้เพียง 13Gbps คิดเป็นเพียง 13% ของลิงก์ข้ามคลัสเตอร์ 100Gbps ซึ่งเหลือแบนด์วิธสำรองอย่างเพียงพอ และหลีกเลี่ยงปัญหาการแออัดและการช่วงชิงลิงก์ได้อย่างมีประสิทธิภาพ

ผลการทดลองยืนยันว่า ภายใต้การทำงานร่วมกันของโมเดลแบบผสมและการจัดตาราง PrFaaS การส่งผ่าน KV Cache ไม่จำเป็นต้องพึ่งพาเครือข่ายเฉพาะทาง RDMA อีกต่อไป อีเธอร์เน็ตเชิงพาณิชย์ทั่วไปก็สามารถรองรับได้อย่างมั่นคง