DeepSeek เฟรมเวิร์กใหม่ DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อเร่งการอนุมานเอเจนต์ เอาชนะคอขวด I/O และเพิ่มประสิทธิภาพได้เกือบ 2 เท่า

2026年2月27日 am9:16 • การอนุมานโมเดลขนาดใหญ่ • 237 views

DeepSeek กรอบงานใหม่ DualPath: ใช้การ์ดเน็ตเวิร์คที่ไม่ได้ใช้งานเพื่อเร่งการอนุมานเอเจนต์ ทำลายคอขวด I/O เพิ่มประสิทธิภาพเกือบ 2 เท่า

ในขณะที่วงการต่างจับตามองความคืบหน้าของโมเดลรุ่นต่อไป V4 ของ DeepSeek ทีมวิจัยของบริษัทร่วมกับนักวิจัยจากมหาวิทยาลัยปักกิ่งและมหาวิทยาลัยชิงหวา ได้เผยแพร่บทความทางวิชาการบน ArXiv เสนอกรอบงานการอนุมานเอเจนต์รูปแบบใหม่: DualPath

กรอบงานนี้มีเป้าหมายเพื่อแก้ไขปัญหาคอขวด I/O ที่สำคัญในสถานการณ์การอนุมานข้อความยาวของเอเจนต์ นวัตกรรมหลักอยู่ที่การเพิ่มความเร็วในการโหลด KV-Cache (แคชคีย์-ค่า) จากหน่วยความจำภายนอก เพื่อให้แน่ใจว่าแหล่งทรัพยากรการคำนวณจะไม่ถูกล่าช้าโดยการอ่านข้อมูลจากที่เก็บ

DualPath เปลี่ยนรูปแบบการโหลดแบบเดิมที่ใช้เส้นทางเดียว จากที่เก็บไปยังเครื่องยนต์เติมล่วงหน้า (Storage-to-Prefill) โดยเพิ่มเส้นทางที่สอง จากที่เก็บไปยังเครื่องยนต์ถอดรหัส (Storage-to-Decode) ด้วยการใช้แบนด์วิดท์ของ การ์ดเน็ตเวิร์คสำหรับที่เก็บ (SNIC) ที่ไม่ได้ใช้งานของเครื่องยนต์ถอดรหัส ในการอ่านแคช และใช้เครือข่ายคำนวณความเร็วสูง (RDMA) ในการส่งข้อมูลไปยังเครื่องยนต์เติมล่วงหน้า DualPath สามารถรวมแบนด์วิดท์ที่เก็บของคลัสเตอร์เป็นสระส่วนกลางและปรับสมดุลโหลดแบบไดนามิกได้

ในการทดสอบจริงกับโมเดลระดับการผลิตขนาด 660B DualPath แสดงผลลัพธ์ที่โดดเด่น:
* เพิ่มปริมาณงานการอนุมานออฟไลน์ 1.87 เท่า
* เพิ่มปริมาณงานบริการออนไลน์โดยเฉลี่ย 1.96 เท่า

นอกจากนี้ ภายใต้โหลดสูง กรอบงานนี้ยังช่วยเพิ่มประสิทธิภาพความล่าช้าของโทเค็นแรก (TTFT) อย่างมาก ในขณะที่รักษาความเร็วในการสร้างระหว่างโทเค็น (TPOT) ให้คงที่

การโหลดสองเส้นทาง (Dual-Path Loading)

DualPath เป็นกรอบงานการอนุมานที่ออกแบบมาเฉพาะสำหรับระบบเอเจนต์ โดยมีแนวคิดหลักคือ: การโหลด KV-Cache ไม่จำเป็นต้องยึดเครื่องยนต์เติมล่วงหน้าเป็นศูนย์กลาง

ในโหมดดั้งเดิม หน่วยคำนวณต้องดึงข้อมูลด้วยตัวเอง แต่ DualPath เสนอว่าแคชสามารถโหลดไปยังเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่าย RDMA ประสิทธิภาพสูงไปยังเครื่องยนต์เติมล่วงหน้า ด้วยการเลือกเส้นทางระหว่างสองเส้นทางแบบไดนามิก ระบบสามารถกระจายโหลดเครือข่ายใหม่ ลดแรงกดดันด้านแบนด์วิดท์ที่ด้านเครื่องยนต์เติมล่วงหน้า

ภูมิหลังของการออกแบบนี้คือ แอปพลิเคชันเอเจนต์ในปัจจุบันมักมีการสนทนาหลายรอบและมีบริบทยาว อัตราการ命中 ของ KV-Cache มักสูงกว่า 95% ซึ่งหมายความว่าทุกรอบการสนทนาต้องเคลื่อนย้ายข้อมูลประวัติจำนวนมหาศาล ส่งผลให้ คอขวดของประสิทธิภาพการอนุมานเปลี่ยนจาก “การคำนวณ” ไปเป็น “การเคลื่อนย้ายข้อมูล”

ในสถาปัตยกรรมแบบแยกเครื่องยนต์เติมล่วงหน้าและถอดรหัสที่มีอยู่ งานโหลดทั้งหมดจะรวมอยู่ที่การ์ดเน็ตเวิร์คสำหรับที่เก็บของเครื่องยนต์เติมล่วงหน้า ทำให้แบนด์วิดท์อิ่มตัวได้ง่าย ในขณะเดียวกัน การ์ดเน็ตเวิร์คสำหรับที่เก็บของเครื่องยนต์ถอดรหัสกลับไม่ได้ใช้งาน สร้างความไม่สมดุลของทรัพยากร

นอกจากนี้ อัตราการเติบโตของพลังการคำนวณของ GPU เร็วกว่าการเติบโตของแบนด์วิดท์เครือข่ายและความจุ HBM มาก ซึ่งทำให้ข้อจำกัดด้าน I/O รุนแรงขึ้น ดังที่ผู้เชี่ยวชาญในวงการได้ชี้ให้เห็นหลายครั้ง: การคำนวณมีราคาถูก แต่การเคลื่อนย้ายข้อมูลมีราคาแพง

เพื่อแก้ไขปัญหาข้างต้น DualPath สร้างโมเดลสองเส้นทางที่สร้างสรรค์:

DeepSeek เฟรมเวิร์กใหม่ DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อเร่งการอนุมานเอเจนต์ เอาชนะคอขวด I/O และเพิ่มประสิทธิภาพได้เกือบ 2 เท่า
* เส้นทาง A (แบบดั้งเดิม): ที่เก็บ → เครื่องยนต์เติมล่วงหน้า (PE) แคชถูกอ่านเข้าเครื่องยนต์เติมล่วงหน้าโดยตรง
* เส้นทาง B (เพิ่มใหม่): ที่เก็บ → เครื่องยนต์ถอดรหัส (DE) → เครื่องยนต์เติมล่วงหน้า (PE) แคชถูกอ่านเข้าไปยังพูลบัฟเฟอร์ของเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่าน RDMA ไปยังเครื่องยนต์เติมล่วงหน้า

สถาปัตยกรรมหลักประกอบด้วยองค์ประกอบต่อไปนี้:
* เครื่องยนต์อนุมาน: แต่ละเครื่องยนต์จัดการ GPU หนึ่งตัว แบ่งแยกอย่างชัดเจนเป็นเครื่องยนต์เติมล่วงหน้า (PE) และเครื่องยนต์ถอดรหัส (DE)
* ตัวจัดการการไหลของข้อมูล: รับผิดชอบการคัดลอกข้อมูลจากโฮสต์ไปยังอุปกรณ์ (H2D) จากอุปกรณ์ไปยังโฮสต์ (D2H) การส่งข้อมูลระหว่างเครื่องยนต์ และการอ่านเขียนที่เก็บ SNIC
* ตัวจัดตารางกลาง: ทำหน้าที่เป็น “สมอง” ของระบบ ตัดสินใจแบบเรียลไทม์ว่าแต่ละคำขอควรเลือกเส้นทางใด เพื่อเพิ่มประสิทธิภาพการใช้แบนด์วิดท์โดยรวมให้สูงสุด

โซลูชันเทคโนโลยีหลัก: เส้นทางจากที่เก็บไปยังเครื่องยนต์ถอดรหัส

หัวใจของระบบอนุมาน DualPath อยู่ที่การทำลายรูปแบบเส้นทางเดียว “จากที่เก็บไปยังเครื่องยนต์เติมล่วงหน้า” และนำเสนอ เส้นทาง “จากที่เก็บไปยังเครื่องยนต์ถอดรหัส” แบบใหม่ การออกแบบนี้อนุญาตให้ KV-Cache โหลดไปยังเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่ายคำนวณแบนด์วิดท์สูง (RDMA) ไปยังเครื่องยนต์เติมล่วงหน้า

ด้วยการกระจายโหลดระหว่างสองเส้นทางแบบไดนามิก ระบบได้ปลดปล่อยแบนด์วิดท์ของการ์ดเน็ตเวิร์คสำหรับที่เก็บด้านเครื่องยนต์ถอดรหัสที่ไม่ได้ใช้งานในคลัสเตอร์ สร้างพูลทรัพยากร I/O ที่เก็บที่สามารถจัดตารางได้ในระดับโลก

โดยเฉพาะ เพื่อสนับสนุนการประมวลผลแบบสตรีมมิ่งระดับชั้น DualPath ได้จัดสรรบัฟเฟอร์ DRAM จำนวนเล็กน้อยบนเครื่องยนต์เติมล่วงหน้าและเครื่องยนต์ถอดรหัส และออกแบบการไหลของข้อมูลอย่างละเอียดสำหรับแต่ละขั้นตอน:
* เส้นทางการอ่าน PE: KV-Cache ของโทเค็นที่命中 จะถูกอ่านจากที่เก็บเข้าไปยังบัฟเฟอร์ PE ก่อนเริ่มการคำนวณแต่ละชั้น แคชของชั้นนั้นจะถูกส่งไปยัง HBM ของ PE และทำงานทับซ้อนกับกระบวนการคำนวณ หลังการคำนวณเสร็จสิ้น KV-Cache ทั้งหมดจะถูกส่งกลับไปยังบัฟเฟอร์ DE เพื่อสร้างบริบทที่สมบูรณ์
* เส้นทางการอ่าน DE: KV-Cache เข้าไปยังบัฟเฟอร์ DE โดยตรง ในระหว่างที่ PE ทำการเติมล่วงหน้า แคชของชั้นที่เกี่ยวข้องจะถูกส่งข้ามโหนดไปยัง HBM ของ PE (ทับซ้อนกับการคำนวณ) หลังการคำนวณเสร็จสิ้น PE จำเป็นต้องส่งกลับเฉพาะส่วนของ KV-Cache ที่สร้างใหม่เท่านั้น เพื่อรวมกับแคชเดิมใน DE
* การถอดรหัสและการเก็บถาวร: หลังจากบัฟเฟอร์ DE ได้รับ KV-Cache ที่สมบูรณ์แล้ว จะเริ่มการถอดรหัส ดำเนินการคัดลอก H2D และปล่อยหน่วยความจำ CPU หลังจากนั้น แม้ว่าการเพิ่มบัฟเฟอร์จะเพิ่มแรงกดดันต่อ DRAM แต่สามารถลดการใช้หน่วยความจำ GPU ได้อย่างมีนัยสำคัญและเพิ่มประสิทธิภาพความล่าช้าของโทเค็นแรก ในระหว่างกระบวนการสร้าง ทุกครั้งที่สะสมเต็มหนึ่งบล็อก (เช่น 64 โทเค็น) จะทริกเกอร์การเก็บถาวรแบบอะซิงโครนัส

อย่างไรก็ตาม การโหลดแบบ “อ้อม” อาจนำมาซึ่งปัญหาใหม่ เช่น การไหลของการเคลื่อนย้ายแคชอาจขัดแย้งกับการสื่อสารการคำนวณโมเดล เพื่อแก้ไขปัญหานี้ DualPath มีโซลูชันการเพิ่มประสิทธิภาพสองชุด:

ประการแรกคือการจัดการการไหลของข้อมูลที่เน้นการ์ดเน็ตเวิร์คสำหรับคำนวณ (CNIC) บังคับให้การไหลทั้งหมดผ่าน CNIC ที่จับคู่กันโดยใช้เส้นทาง GPUDirect RDMA ในเครือข่าย InfiniBand หรือ RoCE ใช้เทคโนโลยีช่องทางเสมือน (VL/TC) ตั้งค่าการสื่อสารการอนุมานเป็นความสำคัญสูงสุดและสำรองแบนด์วิดท์ส่วนใหญ่ ทำให้การเคลื่อนย้ายแคชสามารถใช้แบนด์วิดท์ที่เหลือในช่วงว่างเท่านั้น เพื่อให้แน่ใจว่าไม่รบกวนซึ่งกันและกัน

ประการที่สองคือตัวจัดตารางคำขอแบบปรับตัวได้ ตัวจัดตารางจะตรวจสอบความยาวคิวดิสก์และจำนวนโทเค็นของแต่ละโหนดแบบเรียลไทม์ จัดลำดับความสำคัญให้กับงานไปยังโหนดที่มีแรงกดดัน I/O น้อยกว่าและโหลดการคำนวณเบากว่า เพื่อหลีกเลี่ยงการแออัดของการ์ดเน็ตเวิร์คด้านเดียวหรือทรัพยากรการคำนวณจุดเดียวตั้งแต่ต้น

ในขั้นตอนการทดลอง DualPath ได้รับการทดสอบบนโมเดลเช่น DeepSeek-V3, Qwen ครอบคลุมสถานการณ์ออฟไลน์ Rollout และบริการออนไลน์ ดังที่กล่าวไว้ก่อนหน้านี้ ในการอนุมานออฟไลน์ DualPath เพิ่มปริมาณงานแบบ end-to-end สูงสุด 1.87 เท่า ปริมาณงานบริการออนไลน์เพิ่มขึ้นโดยเฉลี่ย 1.96 เท่า ลดความล่าช้าของโทเค็นแรกอย่างมีนัยสำคัญ ในขณะที่รักษาความล่าช้าระหว่างโทเค็นให้คงที่

โดยรวม DualPath พิสูจน์ว่า ด้วยการออกแบบเส้นทางการโหลดข้อมูลใหม่ สามารถทำลายคอขวด I/O ของการอนุมานโมเดลขนาดใหญ่ในปัจจุบันได้อย่างมีประสิทธิภาพ มันใช้ประโยชน์จากแบนด์วิดท์ I/O ของเครื่องยนต์ถอดรหัสที่ถูกทิ้งไว้โดยเปล่าประโยชน์ ร่วมกับตัวจัดตารางแบบปรับตัวได้และกลไกการแยกการไหลของข้อมูลที่เข้มงวด โดยไม่เพิ่มต้นทุนฮาร์ดแวร์ เพิ่มประสิทธิภาพของระบบอนุมาน LLM สำหรับเอเจนต์ได้อย่างมาก

ข้อมูลผู้เขียน

ผู้เขียนหลักของบทความนี้คือ อู๋ หย่งถง (Wu Yongtong) เป็นนักศึกษาปริญญาเอกที่มหาวิทยาลัยปักกิ่ง เรียนภายใต้การดูแลของศาสตราจารย์ จิน ซิน (Jin Xin) ทิศทางการวิจัยของเขามุ่งเน้นไปที่ซอฟต์แวร์ระบบและโครงสร้างพื้นฐานโมเดลขนาดใหญ่ โดยเฉพาะการเพิ่มประสิทธิภาพทางวิศวกรรมและการปรับใช้ในระดับขนาดใหญ่ของระบบอนุมาน

ปัจจุบันเขาทำงานในกลุ่มระบบของ DeepSeek มีส่วนร่วมในการสร้างโครงสร้างพื้นฐานการอนุมานสำหรับโมเดลรุ่นต่อไป รับผิดชอบการเพิ่มประสิทธิภาพประสิทธิภาพของระบบซอฟต์แวร์ขนาดใหญ่บนแพลตฟอร์มฮาร์ดแวร์หลายแพลตฟอร์ม