HISA: กลไกความสนใจแบบเบาบางใหม่ทำลายข้อจำกัดบริบท 64K เร่งความเร็ว 2-4 เท่า พร้อมใช้งานทันทีโดยไม่ต้องฝึกใหม่

2026年4月7日 am8:31 • วิศวกรรมโมเดลขนาดใหญ่ • 152 views

HISA: กลไกความสนใจแบบเบาบางใหม่ทำลายข้อจำกัดบริบท 64K เร่งความเร็ว 2-4 เท่า ใช้งานได้ทันทีโดยไม่ต้องฝึกใหม่

งานวิจัยใหม่เสนอกลไกความสนใจแบบเบาบางชื่อ HISA (Hierarchical Indexed Sparse Attention) วิธีนี้มีเป้าหมายเพื่อทำลายคอขวดด้านการจัดทำดัชนีในโมเดลบริบทยาว ที่ความยาวบริบท 64K เมื่อเทียบกับตัวจัดทำดัชนี DSA (DeepSeek Sparse Attention) ที่ใช้ในโมเดลอย่าง DeepSeek-V3 สามารถเพิ่มความเร็วได้ 2 ถึง 4 เท่า

HISA: กลไกความสนใจแบบเบาบางใหม่ทำลายข้อจำกัดบริบท 64K เร่งความเร็ว 2-4 เท่า พร้อมใช้งานทันทีโดยไม่ต้องฝึกใหม่

วิธีนี้ไม่เพียงเพิ่มความเร็วอย่างมีนัยสำคัญ แต่ยังแทบไม่สูญเสียความแม่นยำของโมเดล และมีคุณสมบัติ ใช้งานได้ทันที (plug-and-play) โดยไม่จำเป็นต้องฝึกโมเดลที่มีอยู่ใหม่

ทีมวิจัยได้แทนที่ตัวจัดทำดัชนีเดิมในโมเดล DeepSeek-V3.2 และ GLM-5 โดยตรง โดยไม่ทำการปรับจูนใดๆ การทดสอบบนงานต่างๆ เช่น การค้นคืนข้อมูลสำคัญ การทำความเข้าใจข้อความยาว แสดงให้เห็นว่าความแม่นยำอยู่ในระดับใกล้เคียงกับวิธีเดิม

สองขั้นตอนกำจัดคอขวดการจัดทำดัชนีบริบท

งานวิจัยนี้มีเป้าหมายเพื่อออกแบบ “ตัวค้นคืน” ที่มีประสิทธิภาพมากขึ้นสำหรับกลไกความสนใจแบบเบาบางของโมเดลขนาดใหญ่

กลไกความสนใจแบบเบาบางระดับโทเค็นที่เป็นกระแสหลักในปัจจุบัน เช่น DSA แกนหลักคือการลดต้นทุนการคำนวณโดยคำนวณความสนใจเฉพาะระหว่างโทเค็นสำคัญเท่านั้น อย่างไรก็ตาม การออกแบบนี้มี คอขวดสำคัญ: เพื่อคัดเลือกโทเค็นที่เกี่ยวข้อง จำเป็นต้องมี “ตัวจัดทำดัชนี” ซึ่งต้อง ให้คะแนนความเกี่ยวข้องของโทเค็นที่ต้องการสอบถามแต่ละตัวกับโทเค็นก่อนหน้าทุกตัวทีละตัว แล้วจึงเลือกส่วนที่มีคะแนนสูงสุด

เมื่อความยาวข้อความ L เพิ่มขึ้น ปริมาณการคำนวณของกระบวนการให้คะแนนนี้จะเพิ่มขึ้น เป็นกำลังสองของ L ตัวอย่างเช่น เมื่อความยาวข้อความเพิ่มเป็นสองเท่า งานจะเพิ่มเป็นสี่เท่า เมื่อประมวลผลข้อความยาวมาก ค่าใช้จ่ายการคำนวณระดับกำลังสองของตัวจัดทำดัชนีกลับกลายเป็นสิ่งที่ฉุดความเร็ว เวลาที่ใช้อาจเกินการคำนวณความสนใจเองเสียอีก

จากพื้นฐานนี้ ทีมวิจัยได้ตั้งคำถามหลัก: เป็นไปได้หรือไม่ที่จะลดต้นทุนการค้นหาของตัวจัดทำดัชนีโดยไม่เปลี่ยนผลลัพธ์ความสนใจแบบเบาบางสุดท้าย?

เพื่อตอบคำถามนี้ พวกเขาเสนอ HISA (Hierarchical Indexed Sparse Attention) แนวคิดหลักคือ: เนื่องจากให้คะแนนโทเค็นทีละตัวใช้เวลามากเกินไป สามารถคัดกรองเบื้องต้นในระดับหยาบก่อน เพื่อตัดเนื้อหาที่ไม่เกี่ยวข้องจำนวนมากออกไป แล้วจึงทำการเลือกอย่างละเอียดในขอบเขตที่แคบลง

HISA ในการทำงานเชิงตรรกะได้แทนที่โมดูลจัดทำดัชนีเดิมอย่างเทียบเท่า โดยไม่ต้องแก้ไขตรรกะการคำนวณความสนใจในขั้นตอนหลัง เทียบได้กับ “เปลี่ยนตัวกรองที่มีประสิทธิภาพมากขึ้น โดยผลลัพธ์ที่กรองได้แทบไม่เปลี่ยนแปลง”

กระบวนการเฉพาะแบ่งเป็นสองขั้นตอน ใช้กฎการให้คะแนนของโมเดลเดิมตลอดกระบวนการ ไม่จำเป็นต้องเรียนรู้เพิ่มเติม:

ขั้นตอนที่หนึ่ง: การกรองหยาบระดับบล็อก
* ตัดข้อความยาวออกเป็น “บล็อก” ขนาดคงที่ (เช่น แต่ละบล็อกประกอบด้วยโทเค็น 128 ตัว) และคำนวณ “เวกเตอร์คุณลักษณะรวม” สำหรับแต่ละบล็อก (เทียบเท่ากับการแสดงสรุปของบล็อก)
* ใช้วิธีการให้คะแนนของตัวจัดทำดัชนีเดิม ให้คะแนนเฉพาะ เวกเตอร์คุณลักษณะระดับบล็อก เหล่านี้
* คัดเลือกบล็อก m บล็อกที่มีคะแนนสูงสุด (เช่น 64 บล็อก) และทิ้งบล็อกที่เหลือทั้งหมด เนื่องจากจำนวนบล็อกน้อยกว่าจำนวนโทเค็นมาก ขั้นตอนนี้สามารถลดการคำนวณส่วนใหญ่ได้

ขั้นตอนที่สอง: การเลือกโทเค็นอย่างละเอียดภายในบล็อก
เฉพาะภายในบล็อก m บล็อกที่คัดเลือกในขั้นตอนแรก ใช้ กฎของตัวจัดทำดัชนีเดิมเพื่อให้คะแนนโทเค็นแต่ละตัว และสุดท้ายเลือกโทเค็นที่เกี่ยวข้อง k ตัวที่ต้องการ

นอกจากนี้ วิธีนี้ยังเพิ่มการปรับปรุงเล็กน้อย: บังคับเก็บรักษาบล็อกแรกและบล็อกสุดท้ายของข้อความ ซึ่งรับประกันว่าข้อมูลพื้นหลังตอนต้นและบริบทล่าสุดตอนท้ายจะไม่ถูกกรองออกโดยผิดพลาด และยังสามารถจัดการปัญหาขอบเขตเมื่อต่อข้อความได้ดีขึ้น

ข้อได้เปรียบสำคัญของ HISA คือ: ความซับซ้อนในการคำนวณลดลงอย่างมีนัยสำคัญ และสามารถ “แทนที่ได้อย่างราบรื่น”

HISA ลดความซับซ้อนในการคำนวณของตัวจัดทำดัชนีเดิมจาก O(L²) ต่อเลเยอร์ เป็น O(L²/B + L×m×B) (โดยที่ B คือขนาดบล็อก, m คือจำนวนบล็อกที่เลือก) ยิ่งข้อความยาว ยิ่งคัดกรองบล็อกแม่นยำ ผลการเร่งความเร็วก็จะยิ่งชัดเจน

ที่สำคัญกว่านั้นคือ ความเป็นมิตรต่อวิศวกรรม:
* รูปแบบผลลัพธ์เหมือนกับตัวจัดทำดัชนีเดิมทุกประการ โมดูลคำนวณความสนใจขั้นตอนต่อไปไม่ต้องแก้ไขใดๆ
* ไม่จำเป็นต้องฝึกโมเดลใหม่ หรือปรับโครงสร้างแคช KV สามารถแทนที่ตัวจัดทำดัชนีเดิมได้โดยตรง
* เมื่อประมวลผลข้อความสั้น HISA จะ “ถดถอย” เป็นวิธีเดิมโดยอัตโนมัติ; จะเปิดใช้งานกลไกการกรองแบบลำดับชั้นเฉพาะเมื่อประมวลผลข้อความยาวมากเท่านั้น กระบวนการทั้งหมดเป็นแบบปรับตัวได้

ทดสอบจริงเร่งความเร็วชัดเจน ความแม่นยำแทบไม่เสียหาย

บทความวิจัยได้ทดสอบอย่างครอบคลุมบนโมเดลหลักสองโมเดลคือ DeepSeek-V3.2 และ GLM-5 ผลลัพธ์โดดเด่น:

ด้านความเร็ว ที่ความยาวข้อความ 64K HISA เมื่อเทียบกับตัวจัดทำดัชนี DSA เดิม เร่งความเร็วสูงสุดถึง 3.75 เท่า และในการตั้งค่าปกติก็สามารถเร่งความเร็วได้มากกว่า 2 เท่า

ยิ่งความยาวบริบทยาวนาน ผลการเร่งความเร็วของ HISA ยิ่งชัดเจน ซึ่งสอดคล้องกับความต้องการใช้งานจริงของ บริบทยาวมาก (เช่น 128K, 1M) อย่างสมบูรณ์

ด้านความแม่นยำ HISA รักษาความแม่นยำของ DSA เดิมไว้เกือบทั้งหมด และดีกว่าวิธีฐานเส้นแบบเบาบางระดับบล็อกล้วนอย่างมีนัยสำคัญ

งานวิจัยได้ทำการทดสอบ “การค้นหาเข็มในมหาสมุทร” ซึ่งเป็นการทดสอบเพื่อวัดความสามารถของโมเดลในการค้นคืนข้อมูลสำคัญที่ตำแหน่งที่ระบุอย่างแม่นยำจากข้อความยาวมากที่ไม่เกี่ยวข้อง ผลแสดงให้เห็นว่าความแม่นยำในการค้นคืนของ HISA และ DSA ใกล้เคียงกันเกือบเท่ากัน ที่ความยาวข้อความและความลึกของการแทรกต่างๆ ความแม่นยำของ HISA ใกล้เคียงกับระดับเกือบเต็มของ DSA

ใน งานทำความเข้าใจข้อความยาว (มาตรฐาน LongBench) คะแนนที่ HISA ได้รับก็อยู่ในระดับใกล้เคียงกับ DSA

แม้แต่ในบางสถานการณ์ที่ต้องการความแม่นยำสูงในการคัดเลือกโทเค็น เช่น งานการค้นคืนสังเคราะห์ การเรียนรู้แบบตัวอย่างน้อย ฯลฯ ประสิทธิภาพของ HISA กลับดีกว่าอย่างเล็กน้อย

ในการทดสอบ ไฮเปอร์พารามิเตอร์ ไม่ว่าขนาดบล็อกและจำนวนบล็อกที่เลือกจะเปลี่ยนแปลงอย่างไร ประสิทธิภาพของ HISA ค่อนข้างเสถียร คะแนนใกล้เคียงกับ DSA มาก ไม่พบความแตกต่างของประสิทธิภาพที่เด่นชัด

นี่บ่งชี้ว่า HISA ไม่ไวต่อการเลือกไฮเปอร์พารามิเตอร์ มีความแข็งแกร่งสูง เมื่อนำไปใช้งานจริงทางวิศวกรรมไม่จำเป็นต้องปรับพารามิเตอร์อย่างละเอียด

แน่นอนว่า วิธี HISA ในปัจจุบันยังมีจุดที่สามารถปรับปรุงได้ ผู้เขียนยังเสนอแนวทางการปรับปรุงในอนาคต:
1. การแบ่งบล็อกแบบไดนามิก: ปัจจุบันใช้บล็อกขนาดคงที่ หากภายในบล็อกหนึ่งมีทั้งเนื้อหาที่เกี่ยวข้องและไม่เกี่ยวข้อง “คุณลักษณะรวม” ของบล็อกอาจไม่แม่นยำพอ อนาคตอาจสำรวจการแบ่งบล็อกแบบปรับตัวได้ การแบ่งบล็อกแบบทับซ้อน หรือวิธีการคำนวณคุณลักษณะบล็อกที่ดีกว่า
2. การฝึกร่วมกัน: ปัจจุบันใช้เฉพาะในขั้นตอนการอนุมานโดยตรง อนาคตอาจพิจารณาฝึกกลไกการกรองบล็อกร่วมกับโมเดล เพื่อให้กระบวนการกรองแม่นยำยิ่งขึ้น
3. การประเมินแบบต้นทางถึงปลายทาง: การทดสอบปัจจุบันมุ่งเน้นที่ความเร็วของตัวจัดทำดัชนีเอง อนาคตจำเป็นต้องบูรณาการเข้ากับเฟรมเวิร์กบริการโมเดลใหญ่แบบสมบูรณ์ เพื่อประเมินประสิทธิภาพปริมาณงานและความหน่วงแบบต้นทางถึงปลายทาง

ภูมิหลังทีม

บทความวิจัยนี้เสร็จสมบูรณ์โดยทีมของ Zhang Muhan จากมหาวิทยาลัยปักกิ่ง

Zhang Muhan เป็นผู้ช่วยศาสตราจารย์ Tenure-track และอาจารย์ที่ปรึกษาปริญญาเอกของสถาบันปัญญาประดิษฐ์ มหาวิทยาลัยปักกิ่ง ก่อนกลับประเทศ เขาเคยดำรงตำแหน่งนักวิจัยที่ Facebook AI (ปัจจุบันคือ Meta AI) ศึกษาระบบการเรียนรู้กราฟขนาดใหญ่และปัญหาที่เกี่ยวข้อง

จำนวนการอ้างอิงรวมของเขาใน Google Scholar เกิน 13,000 ครั้ง โดยบทความวิจัยสองบทความที่เป็นผู้เขียนหลักมีจำนวนการอ้างอิง 3100+ และ 2400+ ครั้งตามลำดับ และติดอันดับรายชื่อนักวิทยาศาสตร์ชั้นนำ 2% แรกของโลกที่เผยแพร่โดย Elsevier (อิทธิพลตลอดช่วงชีวิต) ติดต่อกันหลายปี

ผู้เขียนร่วมคนแรกของบทความวิจัยคือ Yufei Xu (Xu Yufei) และ Fanxu Meng (Meng Fanxu)

ลิงก์อ้างอิง:
[1] https://arxiv.org/abs/2603.28458

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง