DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

DeepSeek ร่วมกับมหาวิทยาลัยปักกิ่งและมหาวิทยาลัยชิงหวา เปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อแก้ไขปัญหาคอขวด I/O ในการอนุมาน Agent เพิ่มประสิทธิภาพเกือบ 2 เท่า

ในขณะที่แวดวงอุตสาหกรรมให้ความสนใจอย่างกว้างขวางกับ GitHub repository ของ DeepSeek และคาดหวังการเปิดตัวโมเดลรุ่นต่อไป DeepSeek ร่วมกับทีมวิจัยจากมหาวิทยาลัยปักกิ่งและมหาวิทยาลัยชิงหวา ได้เผยแพร่บทความทางวิชาการบน arXiv อย่างเงียบๆ โดยนำเสนอเฟรมเวิร์กการอนุมานเอเจนต์ใหม่ล่าสุด: DualPath

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

เป้าหมายหลักของเฟรมเวิร์กนี้คือการแก้ไขปัญหาคอขวด I/O ที่เอเจนต์ปัญญาประดิษฐ์เผชิญในสถานการณ์การให้เหตุผลด้วยข้อความยาว โดยการเพิ่มความเร็วในการโหลดคีย์-แคชค่า (KV-Cache) จากที่เก็บข้อมูลภายนอก เพื่อให้แน่ใจว่าแหล่งทรัพยากรการคำนวณจะไม่ถูกล่าช้าโดยการดำเนินการอ่านจากที่เก็บข้อมูล

DualPath เปลี่ยนโหมดการโหลดแบบเดิมที่ใช้เส้นทางเดียว “จากที่เก็บข้อมูลไปยังเครื่องยนต์เติมล่วงหน้า” โดยนำเสนอเส้นทางที่สอง “จากที่เก็บข้อมูลไปยังเครื่องยนต์ถอดรหัส” แบบใหม่ โซลูชันนี้ใช้แบนด์วิดท์ของ การ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลที่ไม่ได้ใช้งาน ของเครื่องยนต์ถอดรหัสเพื่ออ่านแคช และส่งผ่านเครือข่ายการคำนวณความเร็วสูงไปยังเครื่องยนต์เติมล่วงหน้า ทำให้สามารถรวมแบนด์วิดท์การจัดเก็บของคลัสเตอร์เป็นพูลส่วนกลางและปรับสมดุลโหลดแบบไดนามิกได้

ในการทดสอบจริงกับโมเดลระดับการผลิตขนาดพารามิเตอร์ 660B DualPath แสดงผลลัพธ์ที่โดดเด่น: ปริมาณงานการอนุมานออฟไลน์เพิ่มขึ้น 1.87 เท่า และปริมาณงานบริการออนไลน์เพิ่มขึ้นโดยเฉลี่ย 1.96 เท่า

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

ในสถานการณ์ที่มีโหลดสูง เฟรมเวิร์กนี้ช่วยเพิ่มประสิทธิภาพความล่าช้าของตัวอักษรแรกได้อย่างมาก พร้อมทั้งรักษาความเร็วในการสร้างระหว่างโทเค็นให้คงที่

การโหลดแบบสองเส้นทาง

โดยรวมแล้ว DualPath เป็นเฟรมเวิร์กการอนุมานที่ออกแบบมาเฉพาะสำหรับระบบเอเจนต์ โดยมีแนวคิดหลักคือ: การโหลด KV-Cache ไม่จำเป็นต้องยึดเครื่องยนต์เติมล่วงหน้าเป็นศูนย์กลาง

ตามแบบดั้งเดิม หน่วยที่ทำการคำนวณจะรับผิดชอบในการดึงข้อมูล แต่ DualPath เสนอว่าแคชสามารถโหลดไปยังเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่ายประสิทธิภาพสูงไปยังเครื่องยนต์เติมล่วงหน้าได้ ด้วยการเลือกเส้นทางระหว่างสองเส้นทางแบบไดนามิก ระบบจะกระจายโหลดเครือข่ายใหม่และลดแรงกดดันด้านแบนด์วิดท์ที่ด้านเครื่องยนต์เติมล่วงหน้า

ภูมิหลังของการออกแบบนี้คือ แอปพลิเคชันเอเจนต์ในปัจจุบันมักมีการสนทนาหลายรอบและมีบริบทยาว อัตราการ命中 ของ KV-Cache สูงมาก (มักเกิน 95%) ซึ่งหมายความว่าทุกรอบการสนทนาต้องย้ายข้อมูลประวัติจำนวนมหาศาล จุดคอขวดของประสิทธิภาพการอนุมานได้เปลี่ยนจาก “การคำนวณ” เป็น “การเคลื่อนย้ายข้อมูล” แล้ว

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

ในสถาปัตยกรรมแบบแยกเครื่องยนต์เติมล่วงหน้าและถอดรหัสที่มีอยู่ งานโหลดทั้งหมดจะรวมศูนย์อยู่ที่การ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลของเครื่องยนต์เติมล่วงหน้า ซึ่งอาจทำให้แบนด์วิดท์อิ่มตัวได้ง่าย ในขณะเดียวกัน การ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลของเครื่องยนต์ถอดรหัสกลับไม่ได้ใช้งาน ส่งผลให้ทรัพยากรไม่ตรงกับความต้องการ

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

นอกจากนี้ อัตราการเติบโตของพลังการคำนวณของ GPU ยังเร็วกว่าการเติบโตของแบนด์วิดท์เครือข่ายและความจุหน่วยความจำแสดงผลมาก ซึ่งทำให้ข้อจำกัดด้าน I/O รุนแรงขึ้น ดังที่ผู้เชี่ยวชาญในอุตสาหกรรมได้ชี้ให้เห็นหลายครั้ง: การคำนวณมีราคาถูก แต่การเคลื่อนย้ายข้อมูลมีราคาแพง

เพื่อแก้ไขปัญหาข้างต้น DualPath ได้สร้างโมเดลสองเส้นทางที่สร้างสรรค์:

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

  • เส้นทาง A: ที่เก็บข้อมูล → เครื่องยนต์เติมล่วงหน้า นี่คือเส้นทางการโหลดโดยตรงแบบดั้งเดิม
  • เส้นทาง B: ที่เก็บข้อมูล → เครื่องยนต์ถอดรหัส → เครื่องยนต์เติมล่วงหน้า เส้นทาง “อ้อม” ที่เพิ่มเข้ามาใหม่ โดยแคชจะถูกอ่านเข้าไปในบัฟเฟอร์ของเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่าย RDMA ไปยังเครื่องยนต์เติมล่วงหน้า

ในแง่ของสถาปัตยกรรมระบบ DualPath ประกอบด้วยองค์ประกอบหลักดังต่อไปนี้:
* เครื่องยนต์อนุมาน: แต่ละเครื่องยนต์จัดการ GPU หนึ่งตัว แบ่งแยกอย่างชัดเจนเป็นเครื่องยนต์เติมล่วงหน้าและเครื่องยนต์ถอดรหัส
* ตัวจัดการการไหลของข้อมูล: รับผิดชอบการถ่ายโอนข้อมูลจากโฮสต์ไปยังอุปกรณ์ ระหว่างอุปกรณ์ และการดำเนินการอ่าน/เขียนของการ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูล
* ตัวจัดตารางกลาง: ทำหน้าที่เป็น “สมอง” ของระบบ ตัดสินใจแบบเรียลไทม์ว่าแต่ละคำขอควรเลือกเส้นทางใด เพื่อให้เกิดการใช้ประโยชน์จากแบนด์วิดท์โดยรวมสูงสุด

โซลูชันเทคโนโลยีหลัก: เส้นทางจากที่เก็บข้อมูลไปยังเครื่องยนต์ถอดรหัส

นวัตกรรมหลักของระบบอนุมาน DualPath คือการทำลายรูปแบบเส้นทางเดียว “จากที่เก็บข้อมูลไปยังเครื่องยนต์เติมล่วงหน้า” และนำเสนอ เส้นทาง “จากที่เก็บข้อมูลไปยังเครื่องยนต์ถอดรหัส” การออกแบบนี้ช่วยให้ KV-Cache สามารถโหลดไปยังเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่ายการคำนวณแบนด์วิดท์สูงไปยังเครื่องยนต์เติมล่วงหน้าโดยไม่สูญเสียข้อมูล

ด้วยการกระจายโหลดระหว่างสองเส้นทางแบบไดนามิก ระบบได้ปลดปล่อยแบนด์วิดท์ของการ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลด้านเครื่องยนต์ถอดรหัสที่ไม่ได้ใช้งานในคลัสเตอร์ สร้างพูลทรัพยากร I/O การจัดเก็บที่สามารถจัดตารางได้ในระดับโลก

โดยเฉพาะอย่างยิ่ง เพื่อสนับสนุนการประมวลผลแบบสตรีมมิ่งระดับชั้น DualPath ได้จัดสรรบัฟเฟอร์ DRAM จำนวนเล็กน้อยบนเครื่องยนต์เติมล่วงหน้าและเครื่องยนต์ถอดรหัส และออกแบบการไหลของข้อมูลอย่างละเอียดสำหรับแต่ละขั้นตอน:
* เส้นทางการอ่านของเครื่องยนต์เติมล่วงหน้า: KV-Cache ที่命中 จะถูกอ่านจากที่เก็บข้อมูลเข้าไปในบัฟเฟอร์ของเครื่องยนต์เติมล่วงหน้า ก่อนเริ่มการคำนวณแต่ละชั้น แคชของชั้นนั้นจะถูกถ่ายโอนไปยังหน่วยความจำแสดงผลของ GPU และดำเนินการทับซ้อนกับกระบวนการคำนวณ หลังการคำนวณเสร็จสิ้น KV-Cache ทั้งหมดจะถูกส่งกลับไปยังบัฟเฟอร์ของเครื่องยนต์ถอดรหัสเพื่อสร้างบริบทที่สมบูรณ์
* เส้นทางการอ่านของเครื่องยนต์ถอดรหัส: KV-Cache เข้าไปในบัฟเฟอร์ของเครื่องยนต์ถอดรหัสโดยตรง ในระหว่างการคำนวณของเครื่องยนต์เติมล่วงหน้า แคชของชั้นที่เกี่ยวข้องจะถูกถ่ายโอนข้ามโหนดไปยังหน่วยความจำแสดงผลของมัน หลังการคำนวณเสร็จสิ้น เครื่องยนต์เติมล่วงหน้าต้องการเพียงส่งกลับส่วนของ KV-Cache ที่สร้างขึ้นใหม่ เพื่อรวมกับแคชเดิมของเครื่องยนต์ถอดรหัส
* การถอดรหัสและการเก็บถาวร: หลังจากบัฟเฟอร์ของเครื่องยนต์ถอดรหัสได้รับ KV-Cache ที่สมบูรณ์แล้ว จะเริ่มการถอดรหัส ดำเนินการคัดลอกข้อมูลแล้วปล่อยหน่วยความจำ CPU แม้ว่าการเพิ่มบัฟเฟอร์จะเพิ่มแรงกดดันต่อ DRAM แต่สามารถลดการใช้หน่วยความจำแสดงผลของ GPU ได้อย่างมีนัยสำคัญและเพิ่มประสิทธิภาพความล่าช้าของตัวอักษรแรก ในระหว่างกระบวนการสร้าง ทุกครั้งที่สะสมข้อมูลเต็มบล็อกจะทริกเกอร์การเก็บถาวรแบบอะซิงโครนัส

อย่างไรก็ตาม การโหลดแบบ “อ้อม” อาจนำมาซึ่งปัญหาใหม่ เช่น ความขัดแย้งระหว่างการไหลของการย้ายแคชกับการสื่อสารการคำนวณโมเดล เพื่อแก้ไขปัญหานี้ DualPath มีโซลูชันการเพิ่มประสิทธิภาพสองชุด:

ประการแรกคือการจัดการการไหลของข้อมูลที่เน้นการ์ดเน็ตเวิร์กสำหรับการคำนวณ บังคับให้การไหลทั้งหมดผ่านการ์ดเน็ตเวิร์กที่จับคู่และใช้เส้นทาง GPUDirect RDMA ในเครือข่าย InfiniBand หรือ RoCE ใช้เทคโนโลยีช่องทางเสมือน ตั้งค่าการสื่อสารการอนุมานเป็นความสำคัญสูงสุดและสงวนแบนด์วิดท์ส่วนใหญ่ ทำให้การย้ายแคชสามารถเกิดขึ้นได้เฉพาะในช่วงว่างของเครือข่ายเท่านั้น เพื่อให้แน่ใจว่าจะไม่รบกวนซึ่งกันและกัน

ประการที่สองคือตัวจัดตารางคำขอแบบปรับตัวได้ ตัวจัดตารางจะตรวจสอบความยาวคิวดิสก์และจำนวนโทเค็นที่รอการประมวลผลของแต่ละโหนดแบบเรียลไทม์ จัดลำดับความสำคัญให้กับงานที่มอบหมายให้กับโหนดที่มีแรงกดดัน I/O น้อยกว่าและโหลดการคำนวณเบากว่า เพื่อหลีกเลี่ยงการแออัดของการ์ดเน็ตเวิร์กด้านเดียวหรือทรัพยากรการคำนวณจุดเดียวตั้งแต่ต้น

ในขั้นตอนการทดลอง ทีมวิจัยได้ทำการทดสอบบนโมเดลภาษาขนาดใหญ่หลักหลายตัว ครอบคลุมสถานการณ์การอนุมานออฟไลน์และบริการออนไลน์ ดังที่กล่าวไว้ก่อนหน้า DualPath เพิ่มปริมาณงานแบบ end-to-end สูงสุด 1.87 เท่าในการอนุมานออฟไลน์ และเพิ่มปริมาณงานบริการออนไลน์โดยเฉลี่ย 1.96 เท่า ลดความล่าช้าของตัวอักษรแรกได้อย่างมีนัยสำคัญ พร้อมทั้งรักษาความล่าช้าระหว่างโทเค็นให้คงที่

โดยสรุป DualPath ได้พิสูจน์แล้วว่าการออกแบบเส้นทางการโหลดข้อมูลใหม่สามารถแก้ไขปัญหาคอขวด I/O ในการอนุมานโมเดลภาษาขนาดใหญ่ในปัจจุบันได้อย่างมีประสิทธิภาพ มันใช้ประโยชน์จากแบนด์วิดท์ I/O ของเครื่องยนต์ถอดรหัสที่ถูกทิ้งไว้โดยเปล่าประโยชน์เดิมๆ ร่วมกับกลไกการจัดตารางแบบปรับตัวได้และการแยกการไหลของข้อมูลอย่างเข้มงวด โดยไม่เพิ่มต้นทุนฮาร์ดแวร์ เพิ่มประสิทธิภาพโดยรวมของระบบอนุมานโมเดลภาษาขนาดใหญ่สำหรับเอเจนต์ได้อย่างมีนัยสำคัญ

ข้อมูลผู้เขียน

Wu Yongtong ผู้เขียนหลักของบทความนี้ เป็นนักศึกษาปริญญาเอกที่มหาวิทยาลัยปักกิ่ง ศึกษาภายใต้การดูแลของศาสตราจารย์ Jin Xin ทิศทางการวิจัยของเขามุ่งเน้นไปที่ซอฟต์แวร์ระบบและโครงสร้างพื้นฐานโมเดลขนาดใหญ่ โดยเฉพาะอย่างยิ่งการเพิ่มประสิทธิภาพทางวิศวกรรมและการปรับใช้ในระดับขนาดของระบบอนุมาน

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

ปัจจุบันเขาทำงานที่กลุ่มระบบของ DeepSeek มีส่วนร่วมในการสร้างโครงสร้างพื้นฐานการอนุมานสำหรับโมเดลรุ่นต่อไป รับผิดชอบการเพิ่มประสิทธิภาพประสิทธิภาพของระบบซอฟต์แวร์ขนาดใหญ่บนแพลตฟอร์มฮาร์ดแวร์หลายแพลตฟอร์ม

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

ก่อนหน้านี้ เขาเคยฝึกงานที่ Tencent, University of Washington, Microsoft Research Asia และสถาบันอื่นๆ

ลิงก์อ้างอิง:
[1] https://arxiv.org/pdf/2602.21548
[2] https://jokerwyt.github.io/


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23368

Like (0)
Previous 3 days ago
Next 3 days ago

相关推荐