กรอบ COMI: การบีบอัดข้อความยาวที่ชาญฉลาดที่อัตราการบีบอัดสูงผ่านการได้รับข้อมูลส่วนเพิ่ม

2026年2月25日 pm6:42 • การอนุมานโมเดลขนาดใหญ่ • 220 views

เหตุใดวิธีการบีบอัดบริบทที่มีอยู่จึง “พลิกคว่ำ” อย่างเป็นหมู่คณะเมื่ออัตราการบีบอัดสูง?

เมื่อโมเดลต้องบีบอัดข้อความยาว 32K ให้เหลือเพียง 1K ประสิทธิภาพทำไมถึงลดลงอย่างรวดเร็ว? วิธีการที่มีอยู่ในปัจจุบันมักเก็บรักษาเนื้อหาที่ “คล้ายกันสูงแต่ซ้ำซ้อน” ไว้เป็นจำนวนมาก เมื่อทำการบีบอัดข้อความยาว ทำให้ตกอยู่ใน “วงจรข้อมูลที่วนเวียน”: ดูเหมือนเก็บรักษาส่วนที่เกี่ยวข้องไว้ แต่จริงๆ แล้วเป็นการกองทับโทเค็นที่ซ้ำซ้อนทางความหมาย ซึ่งกลับจะทำให้โมเดลสร้างคำตอบที่ผิดพลาด

กรอบ COMI: การบีบอัดข้อความยาวที่ชาญฉลาดที่อัตราการบีบอัดสูงผ่านการได้รับข้อมูลส่วนเพิ่ม

ทีมวิจัยจาก Alibaba Future Life Lab ค้นพบว่า สาเหตุเบื้องหลังคือการตั้งเป้าหมายการบีบอัดที่ผิดพลาดโดยพื้นฐาน: วิธีการที่มีอยู่ให้ความสำคัญกับ “ความเกี่ยวข้อง” เพียงอย่างเดียว แต่ละเลย “ความหลากหลาย” เมื่อโทเค็นหลายตัวที่คล้ายกันสูงถูกเก็บรักษาไว้พร้อมกัน พวกมันไม่เพียงไม่สามารถเพิ่มปริมาณข้อมูลได้ แต่กลับรบกวนซึ่งกันและกัน (ความเกี่ยวข้องไม่เท่ากับความถูกต้อง) ทำให้โมเดลหลงทางในข้อมูลที่ซ้ำซ้อน

เพื่อแก้ไขปัญหานี้ ทีมวิจัยเสนอแนวคิดหลัก: การบีบอัดที่มีคุณภาพสูง จำเป็นต้องปรับปรุง “ความเกี่ยวข้องกับคำถาม” และ “ความหลากหลายระหว่างหน่วยข้อมูล” พร้อมกัน จากพื้นฐานนี้ พวกเขาได้เสนอกรอบงานใหม่ COMI (COarse-to-fine context compression via Marginal Information Gain) กรอบงานนี้ใช้ตัวชี้วัด “กำไรข้อมูลส่วนเพิ่ม” และกลยุทธ์การบีบอัดแบบหยาบถึงละเอียด ภายใต้อัตราการบีบอัดสูงถึง 32 เท่า ยังสามารถเก็บรักษาหลักฐานสำคัญที่หลากหลายได้อย่างแม่นยำ งานวิจัยที่เกี่ยวข้องได้รับการตีพิมพ์ใน ICLR 2026 แล้ว

“ไม้บรรทัดอัจฉริยะ” สำหรับการบีบอัด: กำไรข้อมูลส่วนเพิ่ม (MIG)

ทีมวิจัยชี้ให้เห็นว่าวิธีการบีบอัดที่มีอยู่นั้นมีจุดบอด: การพึ่งพาความเกี่ยวข้องมากเกินไปนำไปสู่การกองทับที่ซ้ำซ้อน และละเลย “วงจรข้อมูลที่วนเวียน” ที่เกิดจากความคล้ายคลึงทางความหมายระหว่างโทเค็น เพื่อแก้ไขปัญหานี้ พวกเขาได้นำตัวชี้วัดกำไรข้อมูลส่วนเพิ่ม (MIG) มาใช้ ซึ่งอัพเกรดการตัดสินใจบีบอัดจาก “ความเกี่ยวข้องมิติเดียว” เป็นการประนีประนอมสองมิติระหว่าง “ความเกี่ยวข้อง-ความซ้ำซ้อน”:

MIG = ความเกี่ยวข้องของหน่วยนี้กับคำถาม – ความคล้ายคลึงสูงสุดกับหน่วยอื่น

ตัวชี้วัดนี้เปรียบเสมือนการให้ “บัตรคะแนนมูลค่าข้อมูล” แก่แต่ละโทเค็น: ทั้งให้รางวัลกับส่วนที่เกี่ยวข้องกับปัญหาสูง และลงโทษส่วนที่ซ้ำซ้อนสูงกับเนื้อหาที่เลือกไว้แล้ว

การบีบอัดแบบปรับตัวได้จากหยาบถึงละเอียด ทำให้ทุกบิต “คุ้มค่า”

เมื่อมีไม้บรรทัดอัจฉริยะแล้ว จะทำการบีบอัดที่แม่นยำได้อย่างไร? COMI ใช้กลยุทธ์สองขั้นตอน เปรียบเสมือนบรรณาธิการที่มีประสบการณ์ที่“วางแผนโครงร่างก่อน แล้วจึงตกแต่งอย่างประณีต”:

ขั้นตอนแรก: การจัดสรรกลุ่มใหม่ในระดับหยาบ – จัดสรร “งบประมาณการบีบอัด” แบบไดนามิก

หลังจากแบ่งข้อความยาวออกเป็นส่วนๆ ที่มีความยาวเท่ากัน COMI ไม่ได้ใช้การบีบอัดแบบเหมาเข่งอีกต่อไป แต่ปรับอัตราการบีบอัดของแต่ละส่วนแบบไดนามิกตามค่า MIG ระหว่างกลุ่ม: ส่วนที่มีความหนาแน่นของข้อมูลสูงและความซ้ำซ้อนต่ำ (เช่น ย่อหน้าที่มีหลักฐานสำคัญ) ได้รับงบประมาณการบีบอัดที่ผ่อนคลายมากขึ้น ในขณะที่พื้นที่ที่มีข้อมูลเบาบางหรือซ้ำซ้อนสูงจะถูกบีบอัดอย่างมาก การจัดสรรแบบปรับตัวได้นี้รับประกันว่างบประมาณการบีบอัดที่มีจำกัดสามารถมุ่งไปยัง “พื้นที่ข้อมูลที่มีมูลค่าสูง” ได้อย่างแม่นยำ

ขั้นตอนที่สอง: การผสานโทเค็นในระดับละเอียด – การผสานแบบถ่วงน้ำหนักเพื่อหลีกเลี่ยง “การเจือจางข้อมูล”

ภายในแต่ละส่วน COMI ทำการผสานแบบถ่วงน้ำหนักตามค่า MIG ในระดับโทเค็น: โทเค็นที่มี MIG สูง (เกี่ยวข้องและเป็นเอกลักษณ์) มีน้ำหนักนำในการผสาน ในขณะที่โทเค็นที่มี MIG ต่ำ (ซ้ำซ้อน) จะถูกเจือจางตามธรรมชาติ กลไกนี้มีประสิทธิภาพในการหลีกเลี่ยงปัญหาที่เกิดจากการรวมค่าเฉลี่ยทั่วไปที่ทำให้ “รายละเอียดสำคัญถูกทำให้เรียบ” ทำให้การแสดงผลหลังบีบอัดทั้งกะทัดรัดและอุดมไปด้วยข้อมูลที่หลากหลาย

กรอบงานทั้งหมดนี้บนชุดข้อมูล 5 ชุด เช่น NaturalQuestions, HotpotQA ต้องการการฝึกเพียงครั้งเดียว เท่านั้น และสามารถนำไปใช้กับงานบริบทยาวต่างๆ เช่น การถามตอบ การสรุปข้อความ

ปฏิบัตินำสู่ความจริง: ประสิทธิภาพที่ยอดเยี่ยมและความเข้าใจลึกซึ้งภายใต้อัตราการบีบอัดสูง

ประสิทธิภาพในงานปลายทางที่โดดเด่น

ภายใต้ข้อจำกัดการบีบอัด 32 เท่า COMI ที่ใช้ Qwen2-7B เป็นโมเดลพื้นฐาน บนชุดข้อมูล NaturalQuestions ทำคะแนน Exact Match (EM) ได้ 49.15 คะแนน สูงกว่าฐานอ้างอิงที่ดีที่สุดอันดับสองเกือบ 25 คะแนน แม้ต้องเผชิญกับข้อความยาวพิเศษ 32K (NarrativeQA) COMI ยังคงสามารถเก็บรักษาจุดสำคัญในสายโซ่การให้เหตุผลได้อย่างมั่นคง ซึ่งพิสูจน์ความแข็งแกร่งของมันในสถานการณ์การบีบอัดที่รุนแรง

การบีบอัดไม่ใช่ “การตัดทอน” แต่คือ “การกลั่นกรอง”

COMI ยังสามารถเพิ่มประสิทธิภาพของโมเดล Qwen3-4B ที่รองรับบริบท 256K โดยธรรมชาติได้อีกด้วย บน NaturalQuestions หลังการบีบอัด 32 เท่า COMI ทำคะแนน F1 ได้ 28.89 คะแนน สูงกว่าคะแนน 16.90 ที่ได้จากการป้อนบริบทเต็มโดยตรงอย่างมาก นี่พิสูจน์ว่าการบีบอัดที่มีคุณภาพสูงไม่เพียงแต่เป็นการ “ลดภาระ” แต่ยังเป็นการ “กลั่นกรองข้อมูล” ด้วยการกำจัดสิ่งรบกวนที่ซ้ำซ้อน ทำให้โมเดลมีสมาธิกับหลักฐานหลักมากขึ้น

ได้ทั้งประสิทธิภาพและประสิทธิผล

ภายใต้การบีบอัด 32 เท่า COMI บรรลุความเร็วในการอนุมานแบบ end-to-end ที่เพิ่มขึ้นมากกว่า 2 เท่า และขั้นตอนการบีบอัดเพิ่มค่าใช้จ่ายเพียงเล็กน้อยเท่านั้น (ในงาน NarrativeQA ใช้เวลาในการบีบอัด 2.76 วินาที การสร้างใช้เวลาเพียง 0.50 วินาที) ซึ่งปูทางสำหรับการนำไปใช้งานในระดับอุตสาหกรรม

สรุป

COMI ให้รูปแบบใหม่สำหรับการอนุมานบริบทยาวอย่างมีประสิทธิภาพ:

ผ่านตัวชี้วัดกำไรข้อมูลส่วนเพิ่มที่เรียบง่ายแต่ลึกซึ้งนี้ มันอัพเกรดเป้าหมายการบีบอัดจาก “การเก็บรักษาส่วนที่เกี่ยวข้อง” เป็น “การเก็บรักษาข้อมูลที่เกี่ยวข้องและหลากหลาย” ซึ่งแก้ไขปัญหาคอขวดด้านประสิทธิภาพภายใต้อัตราการบีบอัดสูงได้ตั้งแต่พื้นฐาน กลยุทธ์การปรับตัวได้จากหยาบถึงละเอียดรับประกันว่ากระบวนการบีบอัดสอดคล้องกับการกระจายข้อมูลโดยรวม และยังสามารถเก็บรักษารายละเอียดความหมายในระดับท้องถิ่นได้

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง