DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

3 days ago • การอนุมานโมเดลขนาดใหญ่ • 20 views

DeepSeek ร่วมกับมหาวิทยาลัยปักกิ่งและมหาวิทยาลัยชิงหวา เปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อแก้ไขปัญหาคอขวด I/O ในการอนุมาน Agent เพิ่มประสิทธิภาพเกือบ 2 เท่า

ในขณะที่แวดวงอุตสาหกรรมให้ความสนใจอย่างกว้างขวางกับ GitHub repository ของ DeepSeek และคาดหวังการเปิดตัวโมเดลรุ่นต่อไป DeepSeek ร่วมกับทีมวิจัยจากมหาวิทยาลัยปักกิ่งและมหาวิทยาลัยชิงหวา ได้เผยแพร่บทความทางวิชาการบน arXiv อย่างเงียบๆ โดยนำเสนอเฟรมเวิร์กการอนุมานเอเจนต์ใหม่ล่าสุด: DualPath

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

เป้าหมายหลักของเฟรมเวิร์กนี้คือการแก้ไขปัญหาคอขวด I/O ที่เอเจนต์ปัญญาประดิษฐ์เผชิญในสถานการณ์การให้เหตุผลด้วยข้อความยาว โดยการเพิ่มความเร็วในการโหลดคีย์-แคชค่า (KV-Cache) จากที่เก็บข้อมูลภายนอก เพื่อให้แน่ใจว่าแหล่งทรัพยากรการคำนวณจะไม่ถูกล่าช้าโดยการดำเนินการอ่านจากที่เก็บข้อมูล

DualPath เปลี่ยนโหมดการโหลดแบบเดิมที่ใช้เส้นทางเดียว “จากที่เก็บข้อมูลไปยังเครื่องยนต์เติมล่วงหน้า” โดยนำเสนอเส้นทางที่สอง “จากที่เก็บข้อมูลไปยังเครื่องยนต์ถอดรหัส” แบบใหม่ โซลูชันนี้ใช้แบนด์วิดท์ของ การ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลที่ไม่ได้ใช้งาน ของเครื่องยนต์ถอดรหัสเพื่ออ่านแคช และส่งผ่านเครือข่ายการคำนวณความเร็วสูงไปยังเครื่องยนต์เติมล่วงหน้า ทำให้สามารถรวมแบนด์วิดท์การจัดเก็บของคลัสเตอร์เป็นพูลส่วนกลางและปรับสมดุลโหลดแบบไดนามิกได้

ในการทดสอบจริงกับโมเดลระดับการผลิตขนาดพารามิเตอร์ 660B DualPath แสดงผลลัพธ์ที่โดดเด่น: ปริมาณงานการอนุมานออฟไลน์เพิ่มขึ้น 1.87 เท่า และปริมาณงานบริการออนไลน์เพิ่มขึ้นโดยเฉลี่ย 1.96 เท่า

ในสถานการณ์ที่มีโหลดสูง เฟรมเวิร์กนี้ช่วยเพิ่มประสิทธิภาพความล่าช้าของตัวอักษรแรกได้อย่างมาก พร้อมทั้งรักษาความเร็วในการสร้างระหว่างโทเค็นให้คงที่

การโหลดแบบสองเส้นทาง

โดยรวมแล้ว DualPath เป็นเฟรมเวิร์กการอนุมานที่ออกแบบมาเฉพาะสำหรับระบบเอเจนต์ โดยมีแนวคิดหลักคือ: การโหลด KV-Cache ไม่จำเป็นต้องยึดเครื่องยนต์เติมล่วงหน้าเป็นศูนย์กลาง

ตามแบบดั้งเดิม หน่วยที่ทำการคำนวณจะรับผิดชอบในการดึงข้อมูล แต่ DualPath เสนอว่าแคชสามารถโหลดไปยังเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่ายประสิทธิภาพสูงไปยังเครื่องยนต์เติมล่วงหน้าได้ ด้วยการเลือกเส้นทางระหว่างสองเส้นทางแบบไดนามิก ระบบจะกระจายโหลดเครือข่ายใหม่และลดแรงกดดันด้านแบนด์วิดท์ที่ด้านเครื่องยนต์เติมล่วงหน้า

ภูมิหลังของการออกแบบนี้คือ แอปพลิเคชันเอเจนต์ในปัจจุบันมักมีการสนทนาหลายรอบและมีบริบทยาว อัตราการ命中 ของ KV-Cache สูงมาก (มักเกิน 95%) ซึ่งหมายความว่าทุกรอบการสนทนาต้องย้ายข้อมูลประวัติจำนวนมหาศาล จุดคอขวดของประสิทธิภาพการอนุมานได้เปลี่ยนจาก “การคำนวณ” เป็น “การเคลื่อนย้ายข้อมูล” แล้ว

ในสถาปัตยกรรมแบบแยกเครื่องยนต์เติมล่วงหน้าและถอดรหัสที่มีอยู่ งานโหลดทั้งหมดจะรวมศูนย์อยู่ที่การ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลของเครื่องยนต์เติมล่วงหน้า ซึ่งอาจทำให้แบนด์วิดท์อิ่มตัวได้ง่าย ในขณะเดียวกัน การ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลของเครื่องยนต์ถอดรหัสกลับไม่ได้ใช้งาน ส่งผลให้ทรัพยากรไม่ตรงกับความต้องการ

นอกจากนี้ อัตราการเติบโตของพลังการคำนวณของ GPU ยังเร็วกว่าการเติบโตของแบนด์วิดท์เครือข่ายและความจุหน่วยความจำแสดงผลมาก ซึ่งทำให้ข้อจำกัดด้าน I/O รุนแรงขึ้น ดังที่ผู้เชี่ยวชาญในอุตสาหกรรมได้ชี้ให้เห็นหลายครั้ง: การคำนวณมีราคาถูก แต่การเคลื่อนย้ายข้อมูลมีราคาแพง

เพื่อแก้ไขปัญหาข้างต้น DualPath ได้สร้างโมเดลสองเส้นทางที่สร้างสรรค์:

เส้นทาง A: ที่เก็บข้อมูล → เครื่องยนต์เติมล่วงหน้า นี่คือเส้นทางการโหลดโดยตรงแบบดั้งเดิม
เส้นทาง B: ที่เก็บข้อมูล → เครื่องยนต์ถอดรหัส → เครื่องยนต์เติมล่วงหน้า เส้นทาง “อ้อม” ที่เพิ่มเข้ามาใหม่ โดยแคชจะถูกอ่านเข้าไปในบัฟเฟอร์ของเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่าย RDMA ไปยังเครื่องยนต์เติมล่วงหน้า

ในแง่ของสถาปัตยกรรมระบบ DualPath ประกอบด้วยองค์ประกอบหลักดังต่อไปนี้:
* เครื่องยนต์อนุมาน: แต่ละเครื่องยนต์จัดการ GPU หนึ่งตัว แบ่งแยกอย่างชัดเจนเป็นเครื่องยนต์เติมล่วงหน้าและเครื่องยนต์ถอดรหัส
* ตัวจัดการการไหลของข้อมูล: รับผิดชอบการถ่ายโอนข้อมูลจากโฮสต์ไปยังอุปกรณ์ ระหว่างอุปกรณ์ และการดำเนินการอ่าน/เขียนของการ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูล
* ตัวจัดตารางกลาง: ทำหน้าที่เป็น “สมอง” ของระบบ ตัดสินใจแบบเรียลไทม์ว่าแต่ละคำขอควรเลือกเส้นทางใด เพื่อให้เกิดการใช้ประโยชน์จากแบนด์วิดท์โดยรวมสูงสุด

โซลูชันเทคโนโลยีหลัก: เส้นทางจากที่เก็บข้อมูลไปยังเครื่องยนต์ถอดรหัส

นวัตกรรมหลักของระบบอนุมาน DualPath คือการทำลายรูปแบบเส้นทางเดียว “จากที่เก็บข้อมูลไปยังเครื่องยนต์เติมล่วงหน้า” และนำเสนอ เส้นทาง “จากที่เก็บข้อมูลไปยังเครื่องยนต์ถอดรหัส” การออกแบบนี้ช่วยให้ KV-Cache สามารถโหลดไปยังเครื่องยนต์ถอดรหัสก่อน แล้วจึงส่งผ่านเครือข่ายการคำนวณแบนด์วิดท์สูงไปยังเครื่องยนต์เติมล่วงหน้าโดยไม่สูญเสียข้อมูล

ด้วยการกระจายโหลดระหว่างสองเส้นทางแบบไดนามิก ระบบได้ปลดปล่อยแบนด์วิดท์ของการ์ดเน็ตเวิร์กสำหรับจัดเก็บข้อมูลด้านเครื่องยนต์ถอดรหัสที่ไม่ได้ใช้งานในคลัสเตอร์ สร้างพูลทรัพยากร I/O การจัดเก็บที่สามารถจัดตารางได้ในระดับโลก

โดยเฉพาะอย่างยิ่ง เพื่อสนับสนุนการประมวลผลแบบสตรีมมิ่งระดับชั้น DualPath ได้จัดสรรบัฟเฟอร์ DRAM จำนวนเล็กน้อยบนเครื่องยนต์เติมล่วงหน้าและเครื่องยนต์ถอดรหัส และออกแบบการไหลของข้อมูลอย่างละเอียดสำหรับแต่ละขั้นตอน:
* เส้นทางการอ่านของเครื่องยนต์เติมล่วงหน้า: KV-Cache ที่命中 จะถูกอ่านจากที่เก็บข้อมูลเข้าไปในบัฟเฟอร์ของเครื่องยนต์เติมล่วงหน้า ก่อนเริ่มการคำนวณแต่ละชั้น แคชของชั้นนั้นจะถูกถ่ายโอนไปยังหน่วยความจำแสดงผลของ GPU และดำเนินการทับซ้อนกับกระบวนการคำนวณ หลังการคำนวณเสร็จสิ้น KV-Cache ทั้งหมดจะถูกส่งกลับไปยังบัฟเฟอร์ของเครื่องยนต์ถอดรหัสเพื่อสร้างบริบทที่สมบูรณ์
* เส้นทางการอ่านของเครื่องยนต์ถอดรหัส: KV-Cache เข้าไปในบัฟเฟอร์ของเครื่องยนต์ถอดรหัสโดยตรง ในระหว่างการคำนวณของเครื่องยนต์เติมล่วงหน้า แคชของชั้นที่เกี่ยวข้องจะถูกถ่ายโอนข้ามโหนดไปยังหน่วยความจำแสดงผลของมัน หลังการคำนวณเสร็จสิ้น เครื่องยนต์เติมล่วงหน้าต้องการเพียงส่งกลับส่วนของ KV-Cache ที่สร้างขึ้นใหม่ เพื่อรวมกับแคชเดิมของเครื่องยนต์ถอดรหัส
* การถอดรหัสและการเก็บถาวร: หลังจากบัฟเฟอร์ของเครื่องยนต์ถอดรหัสได้รับ KV-Cache ที่สมบูรณ์แล้ว จะเริ่มการถอดรหัส ดำเนินการคัดลอกข้อมูลแล้วปล่อยหน่วยความจำ CPU แม้ว่าการเพิ่มบัฟเฟอร์จะเพิ่มแรงกดดันต่อ DRAM แต่สามารถลดการใช้หน่วยความจำแสดงผลของ GPU ได้อย่างมีนัยสำคัญและเพิ่มประสิทธิภาพความล่าช้าของตัวอักษรแรก ในระหว่างกระบวนการสร้าง ทุกครั้งที่สะสมข้อมูลเต็มบล็อกจะทริกเกอร์การเก็บถาวรแบบอะซิงโครนัส

อย่างไรก็ตาม การโหลดแบบ “อ้อม” อาจนำมาซึ่งปัญหาใหม่ เช่น ความขัดแย้งระหว่างการไหลของการย้ายแคชกับการสื่อสารการคำนวณโมเดล เพื่อแก้ไขปัญหานี้ DualPath มีโซลูชันการเพิ่มประสิทธิภาพสองชุด:

ประการแรกคือการจัดการการไหลของข้อมูลที่เน้นการ์ดเน็ตเวิร์กสำหรับการคำนวณ บังคับให้การไหลทั้งหมดผ่านการ์ดเน็ตเวิร์กที่จับคู่และใช้เส้นทาง GPUDirect RDMA ในเครือข่าย InfiniBand หรือ RoCE ใช้เทคโนโลยีช่องทางเสมือน ตั้งค่าการสื่อสารการอนุมานเป็นความสำคัญสูงสุดและสงวนแบนด์วิดท์ส่วนใหญ่ ทำให้การย้ายแคชสามารถเกิดขึ้นได้เฉพาะในช่วงว่างของเครือข่ายเท่านั้น เพื่อให้แน่ใจว่าจะไม่รบกวนซึ่งกันและกัน

ประการที่สองคือตัวจัดตารางคำขอแบบปรับตัวได้ ตัวจัดตารางจะตรวจสอบความยาวคิวดิสก์และจำนวนโทเค็นที่รอการประมวลผลของแต่ละโหนดแบบเรียลไทม์ จัดลำดับความสำคัญให้กับงานที่มอบหมายให้กับโหนดที่มีแรงกดดัน I/O น้อยกว่าและโหลดการคำนวณเบากว่า เพื่อหลีกเลี่ยงการแออัดของการ์ดเน็ตเวิร์กด้านเดียวหรือทรัพยากรการคำนวณจุดเดียวตั้งแต่ต้น

ในขั้นตอนการทดลอง ทีมวิจัยได้ทำการทดสอบบนโมเดลภาษาขนาดใหญ่หลักหลายตัว ครอบคลุมสถานการณ์การอนุมานออฟไลน์และบริการออนไลน์ ดังที่กล่าวไว้ก่อนหน้า DualPath เพิ่มปริมาณงานแบบ end-to-end สูงสุด 1.87 เท่าในการอนุมานออฟไลน์ และเพิ่มปริมาณงานบริการออนไลน์โดยเฉลี่ย 1.96 เท่า ลดความล่าช้าของตัวอักษรแรกได้อย่างมีนัยสำคัญ พร้อมทั้งรักษาความล่าช้าระหว่างโทเค็นให้คงที่

โดยสรุป DualPath ได้พิสูจน์แล้วว่าการออกแบบเส้นทางการโหลดข้อมูลใหม่สามารถแก้ไขปัญหาคอขวด I/O ในการอนุมานโมเดลภาษาขนาดใหญ่ในปัจจุบันได้อย่างมีประสิทธิภาพ มันใช้ประโยชน์จากแบนด์วิดท์ I/O ของเครื่องยนต์ถอดรหัสที่ถูกทิ้งไว้โดยเปล่าประโยชน์เดิมๆ ร่วมกับกลไกการจัดตารางแบบปรับตัวได้และการแยกการไหลของข้อมูลอย่างเข้มงวด โดยไม่เพิ่มต้นทุนฮาร์ดแวร์ เพิ่มประสิทธิภาพโดยรวมของระบบอนุมานโมเดลภาษาขนาดใหญ่สำหรับเอเจนต์ได้อย่างมีนัยสำคัญ

ข้อมูลผู้เขียน

Wu Yongtong ผู้เขียนหลักของบทความนี้ เป็นนักศึกษาปริญญาเอกที่มหาวิทยาลัยปักกิ่ง ศึกษาภายใต้การดูแลของศาสตราจารย์ Jin Xin ทิศทางการวิจัยของเขามุ่งเน้นไปที่ซอฟต์แวร์ระบบและโครงสร้างพื้นฐานโมเดลขนาดใหญ่ โดยเฉพาะอย่างยิ่งการเพิ่มประสิทธิภาพทางวิศวกรรมและการปรับใช้ในระดับขนาดของระบบอนุมาน

ปัจจุบันเขาทำงานที่กลุ่มระบบของ DeepSeek มีส่วนร่วมในการสร้างโครงสร้างพื้นฐานการอนุมานสำหรับโมเดลรุ่นต่อไป รับผิดชอบการเพิ่มประสิทธิภาพประสิทธิภาพของระบบซอฟต์แวร์ขนาดใหญ่บนแพลตฟอร์มฮาร์ดแวร์หลายแพลตฟอร์ม

ก่อนหน้านี้ เขาเคยฝึกงานที่ Tencent, University of Washington, Microsoft Research Asia และสถาบันอื่นๆ

ลิงก์อ้างอิง:
[1] https://arxiv.org/pdf/2602.21548
[2] https://jokerwyt.github.io/

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23368

Like (0)

0 0

RL ช่วยให้เกิดความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัยเชิงระบบครั้งแรกด้วยการเรียนรู้แบบเสริมกำลัง ช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน และคุณภาพการสร้างเพิ่มขึ้นอย่างมาก

Previous 3 days ago

เป็นครั้งแรกที่พิสูจน์แล้วว่า RL สามารถทำให้โมเดล 3D เรียนรู้การให้เหตุผลได้ คุณภาพการสร้างภายใต้คำอธิบายข้อความที่ซับซ้อนเพิ่มขึ้นอย่างก้าวกระโดด!

Next 3 days ago

การอนุมานโมเดลขนาดใหญ่

DeepSeek เฟรมเวิร์กใหม่ DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อเร่งการอนุมานเอเจนต์ เอาชนะคอขวด I/O และเพิ่มประสิทธิภาพได้เกือบ 2 เท่า

DeepSeek กรอบงานใหม่ DualPath: ใช้การ์ดเน็ตเวิร์คที่ไม่ได้ใช้งานเพื่อเร่งการอนุมานเอเจนต์ ทำลายคอขวด I/O เพิ่มประสิทธิภาพเกือบ 2 เท่า ในขณะที่วงการต่างจับตามองความคืบหน้าของโมเดลรุ…

3 days ago
96000
การอนุมานโมเดลขนาดใหญ่

LightRetriever: สร้างความเปลี่ยนแปลงครั้งใหญ่! สถาปัตยกรรมการค้นคืน LLM ที่เร็วขึ้นเป็นพันเท่า ขจัดภาระการคำนวณออกจากฝั่งการสืบค้นโดยสิ้นเชิง

ในปีที่ผ่านมา เทคโนโลยีการค้นคืนข้อความโดยใช้โมเดลภาษาขนาดใหญ่ (LLM-based Text Retrieval) ได้พัฒนาอย่างรวดเร็ว โดยโมเดล LLM Embedding หลักส่วนใหญ่มีพารามิเตอร์มากกว่า 7B พันล้านตัว…

2026年2月22日
41000
การอนุมานโมเดลขนาดใหญ่

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

ยังมีผู้เชี่ยวชาญด้านการผลิตชิปอีกหรือ? ชิปตัวล่าสุดที่เพิ่งเปิดตัว ขึ้นแท่นทันทีในรายการฮิตของซิลิคอนแวลลีย์ ด้วยความเร็วในการอนุมานสูงสุดถึง 17,000 โทเค็นต่อวินาที นี่หมายความว่า…

2026年2月21日
84000
การอนุมานโมเดลขนาดใหญ่

Microsoft Re-TRAC Framework: ทำให้ AI Agents จดจำประสบการณ์ความล้มเหลว, โมเดล 4B ทำได้ดีกว่าโมเดลขนาดใหญ่

ลองนึกภาพว่าคุณให้ผู้ช่วย AI ใช้เครื่องมือค้นหาเพื่อสำรวจปัญหาที่ซับซ้อน ในการสำรวจครั้งแรก มันไปผิดทาง แต่ในครั้งที่สองและสาม มันยังคงเดินตามเส้นทางสำรวจผิดพลาดเดิมซ้ำอีก แม้ว่าคุ…

2026年2月19日
34000
การอนุมานโมเดลขนาดใหญ่

จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร

หากมองชีวิตเป็นเกม MMO แบบเปิดขนาดใหญ่ ณ เวลาที่เซิร์ฟเวอร์เกมเพิ่งอัปเดตครั้งใหญ่ กฎก็เปลี่ยนไป นับตั้งแต่ ChatGPT ปรากฏตัวอย่างน่าตื่นตาตื่นใจในปี 2022 โลกได้เปลี่ยนแปลงไปอย่างลึ…

2026年2月20日
31000

การโหลดแบบสองเส้นทาง

โซลูชันเทคโนโลยีหลัก: เส้นทางจากที่เก็บข้อมูลไปยังเครื่องยนต์ถอดรหัส

ข้อมูลผู้เขียน

相关推荐

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

Microsoft Re-TRAC Framework: ทำให้ AI Agents จดจำประสบการณ์ความล้มเหลว, โมเดล 4B ทำได้ดีกว่าโมเดลขนาดใหญ่

จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร