AgentInfer: หัวเว่ยโนอาห์ อาร์ค แล็บ เปิดตัวเฟรมเวิร์กการเร่งความเร็วแบบเอนด์ทูเอนด์สำหรับเอเจนต์อุตสาหกรรม แก้ไขกับดักสามประการในการนำการอนุมานไปปฏิบัติ

2026年3月13日 pm12:56 • การอนุมานโมเดลขนาดใหญ่ • 218 views

เอเจนต์โมเดลขนาดใหญ่กำลังก้าวจากการสาธิตไปสู่การประยุกต์ใช้ในระดับการผลิต และกำลังเผชิญกับความท้าทายของเวิร์กโฟลว์จริง เช่น การให้เหตุผลหลายรอบ การเรียกใช้เครื่องมือ ความจำบริบทยาว และการสนทนาพร้อมกัน อย่างไรก็ตาม เทคนิคการเร่งการให้เหตุผลที่ดูเหมือนล้ำสมัยหลายอย่างอาจล้มเหลวเมื่อนำไปปฏิบัติจริง: การให้เหตุผลแบบขั้นตอนเดียวแม้จะเร็ว แต่ประสิทธิภาพแบบเอนด์ทูเอนด์กลับลดลง; แม้ปริมาณงานจะสูง แต่ภายใต้การทำงานพร้อมกันสูงกลับเกิดความไม่เสถียรของเวลาแฝง; แม้บริบทจะถูกบีบอัด แต่เอเจนต์กลับสูญเสียทิศทางได้ง่ายขึ้น ส่งผลให้จำนวนรอบการโต้ตอบเพิ่มขึ้นอย่างรวดเร็ว

เพื่อแก้ไขปัญหานี้ ห้องปฏิบัติการโนอาห์อาร์คของหัวเว่ย์และห้องปฏิบัติการคอมพิวเตอร์และจัดเก็บข้อมูลขั้นสูงได้ร่วมกันเสนอ AgentInfer: กรอบการเร่งความเร็วแบบเอนด์ทูเอนด์สำหรับเอเจนต์ระดับอุตสาหกรรม แกนหลักของกรอบนี้อยู่ที่การปรับปรุงร่วมกันระหว่าง “การออกแบบสถาปัตยกรรมการอนุมาน” และ “ระบบบริการการอนุมาน”

AgentInfer ไม่ใช่เทคนิคเดี่ยว แต่เป็นโซลูชันที่เป็นระบบและเป็นโมดูลาร์ โมดูลต่างๆ ของมันสามารถปรับใช้แยกกันและสร้างผลประโยชน์ได้ หรือสามารถรวมกันและคงความเสถียรภายใต้โหลดจริงที่มีการทำงานพร้อมกันสูง หลายเซสชัน และบริบทยาว

AgentInfer: หัวเว่ยโนอาห์ อาร์ค แล็บ เปิดตัวเฟรมเวิร์กการเร่งความเร็วแบบเอนด์ทูเอนด์สำหรับเอเจนต์อุตสาหกรรม แก้ไขกับดักสามประการในการนำการอนุมานไปปฏิบัติ

ชื่อบทความวิจัย: Towards Efficient Agents: A Co-Design of Inference Architecture and System
ลิงก์ arXiv: https://arxiv.org/pdf/2512.18337

ทำไมการ “เร่งความเร็ว” เอเจนต์จึงต้องใช้มุมมองแบบเอนด์ทูเอนด์?

ในบริการโมเดลภาษาขนาดใหญ่แบบดั้งเดิม เราคุ้นเคยกับการวัดผลการปรับปรุงด้วยโทเคนที่สร้างต่อวินาทีหรือเวลาแฝงของคำขอเดียว แต่ธรรมชาติของเอเจนต์คือวงจร “คิด-กระทำ-สังเกต” ที่ทำงานอย่างต่อเนื่อง:
* ทุกครั้งที่ “คิด” ต้องนำบริบทที่เติบโตอย่างต่อเนื่องติดไปด้วย
* “การกระทำ/การสังเกต” จะนำเวลาแฝงของเครื่องมือที่ต่างชนิดกันและคำขอแบบขนานเข้ามา
* เมื่อคุณภาพการให้เหตุผลในขั้นตอนใดขั้นตอนหนึ่งลดลง อาจกระตุ้นการแก้ไขข้อผิดพลาด การลองใหม่ หรือการค้นหาที่ซ้ำซ้อน ส่งผลให้จำนวนรอบเพิ่มขึ้น และประสิทธิภาพโดยรวมลดลงแทน

ทีมวิจัยได้สรุปความท้าทายทั่วไปสามประการของสถานการณ์การนำเอเจนต์ไปใช้จริงในการวิเคราะห์:

กับดักการควอนไทซ์: แม้เทคนิคการควอนไทซ์จะสามารถเพิ่มความเร็วการให้เหตุผลแบบขั้นตอนเดียวได้ แต่อาจทำลายความแม่นยำของโมเดล กระตุ้นลูปการซ่อมแซมตัวเองจำนวนมาก และในที่สุดนำไปสู่การเพิ่มขึ้นของเวลาแบบเอนด์ทูเอนด์
ปัญหาความน่าเชื่อถือของการสรุปข้อความ: แม้งานวิจัยจำนวนมากจะแสดงให้เห็นว่าสามารถบีบอัดโทเคนได้ผ่านกระบวนการสรุป แต่การทดสอบจริงพบว่า หลังจากนำการสรุปมาใช้ แม้การโต้ตอบในรอบเดียวจะสั้นลง แต่จำนวนรอบการโต้ตอบโดยรวมอาจเพิ่มขึ้น และอาจส่งผลต่อความแม่นยำของงานด้วย
คอขวดของความคงทนของความจำ: ในสถานการณ์ที่มีการทำงานพร้อมกันสูง กลยุทธ์การจัดตารางงานแบบให้ความสำคัญกับงานสั้นก่อน (Shortest Job First) ที่พบทั่วไปจะกำจัดแคชคีย์-วาลูของเซสชันที่มีบริบทยาวบ่อยครั้ง ส่งผลให้การอนุมานในรอบถัดไปต้องคำนวณคำนำหน้า (prefix) จำนวนมากใหม่ ทำให้เกิดสไปค์ของเวลาแฝงที่เห็นได้ชัด ซึ่งทำลายปริมาณงานและความเสถียรของระบบ

ข้อสรุปชัดเจน: การเพิ่มประสิทธิภาพของเอเจนต์ไม่ใช่การไล่ตาม “ให้แต่ละขั้นตอนเร็วขึ้น” แต่เป็นการมุ่งมั่นให้เกิด “รอบที่ไม่มีประสิทธิภาพน้อยลง การคำนวณใหม่ที่สำคัญน้อยลง การนำข้อมูลกลับมาใช้ใหม่ข้ามรอบที่สูงขึ้น”

AgentInfer: สี่โมดูลที่ปรับใช้แยกกันได้ และผลประโยชน์สามารถซ้อนทับได้

AgentInfer แยกคอขวดแบบเอนด์ทูเอนด์ของเอเจนต์ออกเป็นสี่ประเภทของปัญหา และให้โมดูลการปรับปรุงสี่โมดูลที่เสริมกัน โมดูลเหล่านี้ทำงานในระดับที่ต่างกัน: บางโมดูลมีจุดมุ่งหมายเพื่อลด “จำนวนครั้งที่เรียกใช้โมเดลขนาดใหญ่” บางโมดูลใช้ควบคุม “การเติบโตของความยาวบริบท” บางโมดูลเพิ่ม “อัตราการฮิตของแคชภายใต้การทำงานพร้อมกันสูง” และบางโมดูลเร่ง “กระบวนการสร้างในระดับโทเคน”

1) AgentCollab: การทำงานร่วมกันของโมเดลขนาดใหญ่และเล็กด้วยการรับรู้ความยาก
แนวคิดหลักคือมอบหมายงานปกติให้โมเดลขนาดเล็กจัดการ และสลับงานวางแผนที่สำคัญและงานให้เหตุผลที่ติดขัดไปยังโมเดลขนาดใหญ่ ประเด็นสำคัญไม่ได้อยู่ที่การแบ่งงานแบบคงที่ แต่อยู่ที่กลไก “การประเมินความก้าวหน้าด้วยตนเอง” ที่มีโครงสร้าง: ในแต่ละขั้นตอนจะประเมินว่า “ได้ก้าวหน้าอย่างมีสาระสำคัญหรือไม่” หากติดขัดจะยกระดับให้โมเดลขนาดใหญ่เข้ามาแทรกแซง; เมื่อกลับมามีก้าวหน้าอีกครั้งจะลดระดับกลับไปให้โมเดลขนาดเล็กดำเนินการต่อ ซึ่งทำให้ระบบฉลาดขึ้นในสถานการณ์อุตสาหกรรม: ใช้โมเดลขนาดเล็กที่ประหยัดค่าใช้จ่ายเพื่อขับเคลื่อนกระบวนการเป็นส่วนใหญ่ และเรียกใช้โมเดลขนาดใหญ่ที่มีราคาแพงเฉพาะในขั้นตอนที่ยากจริงๆ เท่านั้น เพื่อแสวงหาความสมดุลที่ดีขึ้นระหว่างคุณภาพและต้นทุน

2) AgentCompress: การบีบอัดความหมายและการกลั่นแบบอะซิงโครนัส
ในงานเอเจนต์ประเภทการวิจัยเชิงลึกหรือการค้นหา บริบทจะขยายตัวอย่างรวดเร็วเนื่องจากผลการค้นหา เนื้อหาเว็บ ผลลัพธ์จากเครื่องมือ ส่งผลให้ความยาวลำดับเพิ่มขึ้นอย่างรวดเร็วและต้นทุนการคำนวณความสนใจเพิ่มขึ้น AgentCompress ดำเนินงานหลักสองอย่าง:
* การกรองและจัดอันดับผลการค้นหา: ใช้โมเดลน้ำหนักเบาในการจัดอันดับและตัดแต่ง URL และบทสรุปก่อน เพื่อลดเนื้อหาที่ไม่เกี่ยวข้องไม่ให้เข้าสู่กระบวนการดึงข้อมูลและการถามตอบเอกสารในขั้นตอนต่อไป ลดแรงกดดันจากการเรียกใช้เครื่องมือแบบขนาน
* การกลั่นบริบทแบบอะซิงโครนัส: บีบอัด “ความจำจากการโต้ตอบกับสภาพแวดล้อม” เช่น ผลลัพธ์จากเครื่องมือ แต่ประเด็นสำคัญคือการรักษา “ความจำของเส้นทางการให้เหตุผล” ทีมวิจัยสังเกตเห็นว่า การบีบอัดเฉพาะข้อมูลสภาพแวดล้อมจะทำให้เอเจนต์ “สูญเสียความจำ” ไม่สามารถประเมินสถานะความสำเร็จของงานได้อย่างแม่นยำ และนำไปสู่การเพิ่มขึ้นอย่างรวดเร็วของจำนวนรอบ; มีเพียงการรักษาเส้นทางการให้เหตุผลไว้ด้วยเท่านั้น จึงจะสามารถรักษาความต่อเนื่องของการรับรู้ และทำให้การบีบอัดสร้างผลประโยชน์แบบเอนด์ทูเอนด์ได้จริง
AgentInfer: หัวเว่ยโนอาห์ อาร์ค แล็บ เปิดตัวเฟรมเวิร์กการเร่งความเร็วแบบเอนด์ทูเอนด์สำหรับเอเจนต์อุตสาหกรรม แก้ไขกับดักสามประการในการนำการอนุมานไปปฏิบัติ

3) AgentSched: การจัดตารางงานแบบผสมผสานด้วยการรับรู้ KV-Cache
ในสถานการณ์ที่มีการสนทนาพร้อมกันหลายเซสชัน จะมีทั้งคำขอสั้นและคำขอที่มีบริบทยาวมากพร้อมกัน การจัดตารางงานแบบ First-Come, First-Served ล้วนๆ ง่ายต่อการถูกบล็อกโดยคำขอยาว ในขณะที่การจัดตารางงานแบบ Shortest Job First ล้วนๆ จะเสียสละความคงทนของแคชคีย์-วาลูของเซสชันยาว ส่งผลให้คำนำหน้าถูกคำนวณใหม่ซ้ำๆ และเกิดสไปค์ของเวลาแฝง AgentSched นำสัญญาณควบคุมที่สามารถอธิบายได้เข้ามา เพื่อสลับปรับตัวระหว่าง “ให้ความสำคัญกับการรับประกันเวลาแฝงต่ำสำหรับคำขอสั้น” และ “ให้ความสำคัญกับการรับประกันอัตราการนำแคช KV กลับมาใช้ใหม่สูง”:
* เมื่อทรัพยากรแคชเหลือเฟือ กลยุทธ์จะโน้มเอียงไปทาง Shortest Job First มากขึ้น เพื่อตอบสนองคำขอสั้นอย่างรวดเร็ว
* เมื่อทรัพยากรแคชตึงตัว กลยุทธ์จะโน้มเอียงไปทาง KV-aware มากขึ้น เพื่อปกป้องบริบทของเซสชันยาว ลดการคำนวณใหม่ที่แพงของการคำนวณการเติมล่วงหน้า (prefill)
AgentInfer: หัวเว่ยโนอาห์ อาร์ค แล็บ เปิดตัวเฟรมเวิร์กการเร่งความเร็วแบบเอนด์ทูเอนด์สำหรับเอเจนต์อุตสาหกรรม แก้ไขกับดักสามประการในการนำการอนุมานไปปฏิบัติ

4) AgentSAM: การถอดรหัสเชิงเก็งกำไรข้ามเซสชัน
ในการให้เหตุผลของเอเจนต์ มักมีรูปแบบที่ซ้ำกันสูง เช่น คำถามหลายรอบสำหรับงานเดียวกัน การนำเทมเพลตกลับมาใช้ใหม่สำหรับคำขอผู้ใช้ที่คล้ายกัน หลักฐานการค้นหาถูกอ้างอิงหลายครั้ง เป็นต้น AgentSAM ใช้ Suffix Automaton เพื่อรวมเซสชันปัจจุบันกับเซสชันในอดีตที่คล้ายกันทางความหมาย เพื่อจัดหาแบบร่างผู้สมัครที่มีอัตราการฮิตสูงกว่าให้กับการถอดรหัสเชิงเก็งกำไร (speculative decoding) พร้อมกันนั้น มันใช้กลไกการสร้างแบบอะซิงโครนัส เพื่อหลีกเลี่ยงไม่ให้การสร้าง Suffix Automaton ภายใต้บริบทยาวบล็อกเวลาแฝงของการสร้างโทเคนแรก และติดตั้งสวิตช์ปรับตัว: เมื่อขนาดแบทช์ใหญ่เกินไปและผลประโยชน์จากการเก็งกำไรลดลง จะถอยกลับโดยอัตโนมัติ เพื่อหลีกเลี่ยงผลกระทบด้านลบจากการ “เก็งกำไรเพื่อการเก็งกำไร”

การตรวจสอบความสามารถในการใช้งานในอุตสาหกรรม: QPS เพิ่มขึ้นอย่างต่อเนื่องภายใต้การทำงานพร้อมกันสูง

ในการทดสอบมาตรฐานเอเจนต์ประเภทการวิจัยเชิงลึก เช่น BrowseComp-zh และ DeepDiver ทีมวิจัยได้รวมสี่โมดูลเข้าสู่สแต็กบริการเดียวกันเพื่อประเมินแบบเอนด์ทูเอนด์

ผลลัพธ์เปิดเผยข้อค้นพบสำคัญสองประการ:

1) ไม่ใช่แค่ “การปรับปรุงคำขอเดียว” แต่เป็นการเพิ่มประสิทธิภาพระดับระบบที่เสถียรภายใต้การทำงานพร้อมกันสูง
เมื่อจำนวนเซสชันพร้อมกันเพิ่มขึ้น (เช่น จาก 4 เป็น 16) ระบบยังคงได้รับผลประโยชน์ด้านประสิทธิภาพอย่างเสถียร การเพิ่มขึ้นของ QPS สูงสุดสามารถถึง 2.52 เท่า ซึ่งบ่งชี้ว่าการปรับปรุงไม่เพียงมีผลต่อการอนุมานครั้งเดียว แต่ยังสามารถรักษาความเสถียรภายใต้โหลดจริงที่มีการแข่งขันทรัพยากร แรงกดดันของแคช และการผสมผสานของคำขอสั้นและยาว

2) เป็นโมดูลาร์ สามารถรวมกันได้ และผลประโยชน์สามารถซ้อนทับได้
ทีมวิจัยได้ทำการทดลองซ้อนทับทีละขั้น:
* การเปิดใช้งานเพียง AgentCollab ก็สามารถสร้างผลประโยชน์ได้แล้ว
* หลังจากซ้อนทับ AgentCompress และ AgentSched ผลประโยชน์ยังคงเติบโตต่อเนื่อง
* สุดท้ายเพิ่ม AgentSAM เข้าไป ประสิทธิภาพโดยรวมได้รับการปรับปรุงเพิ่มเติม (และภายใต้การทำงานพร้อมกันสูง สามารถเปิดปิดการถอดรหัสเชิงเก็งกำไรโดยอัตโนมัติตามผลประโยชน์ เพื่อหลีกเลี่ยงผลข้างเคียง)
นี่คือเป้าหมายการออกแบบของ AgentInfer: แต่ละองค์ประกอบแก้ไขคอขวดอุตสาหกรรมที่แน่นอนประเภทหนึ่ง; เมื่อใช้ร่วมกัน ผลประโยชน์สามารถทำงานร่วมกันและซ้อนทับได้ แทนที่จะหักล้างกัน

บทสรุป: ปัญหาประสิทธิภาพของเอเจนต์โดยพื้นฐานแล้วคือปัญหาของระบบ

AgentInfer ไม่ได้เน้นย้ำถึงการผลักดันตัวชี้วัดเดียวให้ถึงขีดสุด แต่ได้ข้อสรุปที่ใกล้เคียงกับความเป็นจริงทางวิศวกรรมมากขึ้น: การเร่งความเร็วเอเจนต์ที่สามารถนำไปปฏิบัติได้จริง ต้องปรับปรุงทั้งสถาปัตยกรรมการอนุมานและระบบบริการการอนุมานไปพร้อมกัน และต้องใช้การทำงานให้เสร็จสมบูรณ์แบบเอนด์ทูเอนด์เป็นเป้าหมายสุดท้าย

ผลการทดลองแสดงให้เห็นว่า AgentInfer สามารถลดการบริโภคโทเคนที่ไม่มีประสิทธิภาพได้มากกว่า 50% บรรลุการเร่งความเร็วแบบเอนด์ทูเอนด์ 1.8 ถึง 2.5 เท่า พร้อมกับรักษาความแม่นยำของงานให้เสถียร

เมื่อเอเจนต์เข้าสู่สภาพแวดล้อมการผลิต สิ่งที่กำหนดประสบการณ์ผู้ใช้มักไม่ใช่ความเร็วในการสร้างโทเคนต่อขั้นตอน แต่คือ “ความสามารถในการหลีกเลี่ยงทางอ้อม ลดการคำนวณซ้ำ และทนต่อแรงกดดันของการทำงานพร้อมกันสูง” นี่คือเหตุผลที่เราจำกัดตำแหน่งของ AgentInfer ว่าเป็น “เครื่องยนต์ที่วิวัฒนาการด้วยตนเอง”: มันมีจุดมุ่งหมายเพื่อให้เอเจนต์ยังคงมีความสามารถในการดำเนินการที่มีประสิทธิภาพและความสามารถในการรับรู้ที่เสถียร แม้ในงานที่มีรอบระยะยาวและสภาพแวดล้อมที่มีการทำงานพร้อมกันสูง

หากต้องการส่งบทความหรือขอการรายงานข่าว กรุณาติดต่อ: liyazhou@jiqizhixin.com

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง