ทีม RAM ผู้เขียน
QbitAI | บัญชี WeChat QbitAI
ทำให้โมเดลใหญ่อ่านได้เหมือนมนุษย์! บรรลุการก้าวกระโดดทั้งด้านประสิทธิภาพและประสิทธิภาพผ่านการอ่านแบบละเอียดและอ่านแบบคร่าวๆ
ในสถานการณ์บริบทยาว ความซับซ้อนในการคำนวณกำลังสองของสถาปัตยกรรม Transformer ทำให้ความเร็วในการอนุมานลดลงอย่างรวดเร็ว ในขณะที่มนุษย์กลับสามารถรับมือกับเอกสารยาวได้อย่างสบายๆ — เราไม่อ่านนวนิยายทั้งเล่มทีละคำ แต่จะอ่านรายละเอียดในส่วนสำคัญอย่างละเอียด และอ่านผ่านๆ ในส่วนคำบรรยายฉากหลัง

ทีมวิจัยร่วมจากมหาวิทยาลัยชิงหวา ห้องปฏิบัติการ Peng Cheng และ Alibaba Future Life Laboratory พบว่า: วิธีการบีบอัดที่เกี่ยวข้องกับงานที่มีอยู่ในปัจจุบันไม่เพียงแต่ติดอยู่ในคอขวดด้านประสิทธิภาพ — ไม่ว่าจะโหลดข้อความเต็มทั้งบทความในครั้งเดียว (ประสิทธิภาพต่ำ) หรือบีบอัดแบบออโต้รีเกรสทีละขั้น (ความเร็วช้า) — แต่ยังยากที่จะรักษาสมดุลระหว่าง “การเก็บรักษาข้อมูลสำคัญ” และ “การรักษาความสามารถในการตีความภาษาธรรมชาติ”


ได้รับแรงบันดาลใจจากความรู้ความเข้าใจในการอ่านของมนุษย์ พวกเขาเสนอเฟรมเวิร์กใหม่ RAM (Read As HuMan) เป็นครั้งแรกที่นำกลยุทธ์ผสม“อ่านละเอียด + อ่านคร่าวๆ” เข้ามาในการบีบอัดบริบท ไม่เพียงแต่แสดงผลงานที่ยอดเยี่ยมบนเกณฑ์มาตรฐานข้อความยาวหลายชุดเท่านั้น แต่ยังบรรลุการเร่งความเร็วแบบ end-to-end 12 เท่า บนอินพุตเฉลี่ย 1.6 หมื่นโทเค็น
อ่านเหมือนมนุษย์: อ่านละเอียดเนื้อหาสำคัญ อ่านคร่าวๆ เนื้อหาพื้นหลัง

ทีมวิจัยได้รับแรงบันดาลใจจากวิทยาศาสตร์ความรู้ความเข้าใจ: เมื่อมนุษย์อ่านจะกระจายความสนใจแบบไดนามิก — สำหรับเนื้อหาที่มีความเกี่ยวข้องสูงกับเป้าหมายจะทำการอ่านละเอียด (close reading) รักษารายละเอียดความหมายทั้งหมดไว้; สำหรับข้อมูลพื้นหลังรองจะใช้การอ่านคร่าวๆ (skimming) เพื่อดึงแก่นความหมายออกมาอย่างรวดเร็ว
RAM แปลงพฤติกรรมนี้เป็นกลยุทธ์การบีบอัดแบบปรับตัวได้ที่สามารถคำนวณได้:
- พื้นที่อ่านละเอียด: ส่วนที่เกี่ยวข้องสูงจะเก็บรักษาข้อความต้นฉบับไว้ครบถ้วน รับประกันว่าข้อมูลสำคัญจะไม่สูญหาย รักษาความสามารถในการตีความภาษาธรรมชาติ
- พื้นที่อ่านคร่าวๆ: ส่วนที่เกี่ยวข้องต่ำจะถูกบีบอัดโดยชี้นำด้วยคำถามให้เป็นเวกเตอร์ความหมายเดี่ยว ตัดเนื้อหาซ้ำซ้อนออกไปอย่างสุดขีด
- การแสดงแบบผสม: ข้อความอ่านละเอียดและเวกเตอร์อ่านคร่าวๆ จะถูกเชื่อมต่อตามลำดับเดิม ก่อให้เกิดบริบทผสม “ชัดแจ้ง + โดยนัย” ซึ่งทั้งรักษารายละเอียดสำคัญและลดความยาวลงอย่างมาก
ที่สำคัญกว่านั้น RAM ได้ก้าวข้ามคอขวดด้านประสิทธิภาพของวิธีการที่มีอยู่: เข้ารหัสส่วนทั้งหมดพร้อมกับคำถามแบบขนาน หลีกเลี่ยงความซับซ้อนกำลังสองของการโหลดข้อความเต็มทั้งบทความในครั้งเดียวโดยสิ้นเชิง และหลุดพ้นจากการรอแบบอนุกรมของการบีบอัดแบบออโต้รีเกรส บรรลุไปป์ไลน์ประสิทธิภาพสูงที่แท้จริงของ“การบีบอัดคือการอนุมาน”
สอนให้จับปลา: ทำให้โมเดลเรียนรู้ว่า “เมื่อไหร่ควรอ่านละเอียด เมื่อไหร่ควรอ่านคร่าวๆ”
มีเพียงกลยุทธ์ไม่พอ จะทำให้โมเดลตัดสินใจได้อย่างแม่นยำว่า“เนื้อหาใดควรอ่านละเอียด” ได้อย่างไร? RAM นำการเรียนรู้แบบเปรียบเทียบมาใช้เพื่อปรับปรุงขอบเขตการตัดสินใจ:
- ใช้คู่ตัวอย่างบวกและลบ (ส่วนที่มีคำตอบ/ส่วนที่ไม่เกี่ยวข้อง) เพื่อฝึกตัวแยกแยะความเกี่ยวข้องระหว่างคำถาม-ส่วน
- คำนวณความสำคัญของส่วนผ่านการคำนวณความสนใจที่ชี้นำด้วยคำถาม ตัดสินใจแบบไดนามิกในการเก็บรักษา (อ่านละเอียด) และการบีบอัด (อ่านคร่าวๆ) ของย่อหน้า
- กระบวนการอ่านคร่าวๆ ใช้ค่าเฉลี่ยถ่วงน้ำหนักที่ชี้นำด้วยคำถาม: คำนวณความคล้ายคลึงระหว่างโทเค็นแต่ละตัวกับคำถาม มุ่งเน้นการดึง “สาระสำคัญ” ความหมายที่เกี่ยวข้องกับงาน
การออกแบบนี้ทำให้ RAM ในขั้นตอนการฝึกจำเป็นต้องฝึกเพียงครั้งเดียว ก็สามารถทำให้เกิดภาวะทั่วไปไปยังงานต่างๆ (ถามตอบ สรุปความ) และอัตราส่วนการบีบอัดใดๆ (2x–32x) ได้ ที่น่าประหลาดใจยิ่งกว่าคือ แม้ว่าขณะฝึกความยาวสูงสุดมีเพียง 2 หมื่นโทเค็น แต่ RAM ในการทดสอบ NarrativeQA 3.2 หมื่นโทเค็นประสิทธิภาพกลับแซงหน้าข้อความต้นฉบับที่ไม่บีบอัด แสดงให้เห็นถึงความสามารถในการคาดการณ์ความยาวที่ทรงพลัง — มันเรียนรู้ไม่ใช่การจดจำรูปแบบตายตัว แต่เป็นการแสดงความหมายแบบผสมผสาน
ปฏิบัตินำสู่ความจริง: การก้าวกระโดดทั้งด้านประสิทธิภาพและประสิทธิภาพ
แสดงผลงานดีเยี่ยมในงานหลากหลายประเภท
บนเกณฑ์มาตรฐานถามตอบสี่ชุด เช่น NaturalQuestions, HotpotQA และงานสรุปความ MultiNews RAM ใช้ LLaMA-3.1-8B และ Qwen3-4B เป็นฐาน ภายใต้การบีบอัด 4x/8x แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่า ทั้งหมด ตัวอย่างเช่น Qwen3-4B เมื่อบีบอัด 4x คะแนน EM ถึง 66.59 (เมื่อป้อนข้อความต้นฉบับ 32.77) พิสูจน์ว่าการบีบอัดไม่เพียงแต่ไม่ทำลายประสิทธิภาพ แต่กลับเพิ่มคุณภาพการอนุมานผ่านการลดสัญญาณรบกวน

เร่งความเร็ว 12 เท่า ตอบสนองข้อความยาวในระดับวินาที
บนชุดข้อมูล NarrativeQA ที่ตั้งค่าเฉลี่ย 1.6 หมื่นโทเค็น ยาวที่สุด 3.2 หมื่นโทเค็น ความล่าช้าแบบ end-to-end ของ RAM มีเพียง0.20 วินาที (บีบอัด 32x) เมื่อเทียบกับการป้อนคำสั่งต้นฉบับ (ความล่าช้า end-to-end 1.23 วินาที) — เร่งความเร็วประมาณ 6 เท่า เวลาที่ใช้ในขั้นตอนบีบอัดมีเพียง 0.08 วินาที บรรลุ “ต้นทุนการบีบอัดที่ละเลยได้” จริงๆ

ความทนทานต่อการบีบอัด: มั่นคงดุจหินผาจาก 2x ถึง 32x
เมื่ออัตราการบีบอัดเพิ่มจาก 2x เป็น 32x คะแนน EM ของ RAM ยังคงสูงกว่าเส้นฐานอย่างมั่นคง นี่พิสูจน์ว่าผลการแสดงของ RAM ภายใต้อัตราการบีบอัดต่างๆ มีความทนทาน มั่นคงดุจหินผาตั้งแต่อัตราการบีบอัด 2 เท่าถึง 32 เท่า

สรุป
งานของ RAM ให้รูปแบบใหม่สำหรับการปรับใช้ LLM บริบทยาว: มันไม่มองการบีบอัดเป็น “การประนีประนอมที่จำเป็น” อีกต่อไป แต่ผ่านการจำลองกลยุทธ์ความรู้ความเข้าใจของมนุษย์ เปลี่ยนประสิทธิภาพและประสิทธิภาพให้เป็นกำไรเสริมร่วมกัน
- นวัตกรรมด้านระเบียบวิธี: เป็นครั้งแรกที่ทำให้กลยุทธ์ผสม “อ่านละเอียด+อ่านคร่าวๆ” เป็นอัลกอริทึม ทำลายการแลกเปลี่ยนระหว่างประสิทธิภาพ-ความเที่ยงตรง
- ความก้าวหน้าด้านวิศวกรรม: การออกแบบแบบขนานทำให้ต้นทุนการบีบอัดเข้าใกล้ศูนย์ ตอบสนองความต้องการแบบเรียลไทม์ระดับอุตสาหกรรมได้จริง
- แรงบันดาลใจด้านความรู้ความเข้าใจ: พิสูจน์ว่าการอ้างอิงกลไกการประมวลผลข้อมูลของมนุษย์ สามารถให้แรงบันดาลใจอันทรงพลังสำหรับการออกแบบระบบ AI
เมื่อโมเดลใหญ่เรียนรู้ที่จะ“อ่านโดยมีจุดเน้น” เหมือนมนุษย์ ข้อความยาว不再是不再是ภาระ แต่เป็นมหาสมุทรความรู้ที่สามารถควบคุมได้อย่างมีประสิทธิภาพ RAM ไม่เพียงแต่บีบอัดความยาวบริบท แต่ยังบีบอัดระยะห่างระหว่าง AI กับความรู้ความเข้าใจของมนุษย์
ชื่อบทความวิจัย:
Read As Human: Compressing Context via Parallelizable Close Reading and Skimming
ลิงก์บทความวิจัย:
https://arxiv.org/abs/2602.01840
ลิงก์โค้ด:
https://github.com/Twilightaaa/RAM
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/22933
