แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

1 day ago • วิศวกรรมโมเดลขนาดใหญ่ • 34 views

ในสถานการณ์การใช้งานจริง โมเดลภาษาขนาดใหญ่มักจะพลาดข้อมูลสำคัญ ซึ่งเป็นปรากฏการณ์ที่เรียกว่า “Lost in the Middle” (หลงทางตรงกลาง) กล่าวคือ โมเดลให้ความสนใจกับเนื้อหาที่อยู่ตรงกลางของอินพุตน้อยกว่าอย่างเห็นได้ชัด ปัจจุบัน กลยุทธ์การปรับแต่งที่นิยมแบ่งออกเป็นสองแนวทางหลัก:

การเลือกแบบฮาร์ด (Hard Selection): ขั้นแรกให้ดึงหรือตัดส่วนที่เกี่ยวข้องออกมา จากนั้นจึงป้อนให้กับโมเดล แต่วิธีนี้อาจทำให้สูญเสียข้อมูลบริบทที่สำคัญต่อการอนุมาน
การเลือกแบบซอฟต์ (Soft Selection): ใช้เทคนิคการสรุปความหรือการบีบอัดเพื่อลดความยาวของข้อความอินพุต อย่างไรก็ตาม การบีบอัดแบบสูญเสียข้อมูลย่อมทำให้เกิดการบิดเบือนของข้อมูลอย่างหลีกเลี่ยงไม่ได้

ทั้งสองวิธีนี้โดยพื้นฐานแล้วเป็นการ “ดัดแปลง” อินพุตดั้งเดิมหรือน้ำหนักของโมเดล แล้วมีวิธีใดบ้างที่สามารถรักษาบริบททั้งหมดไว้ได้ พร้อมกับบอกโมเดลได้อย่างแม่นยำว่า “ควรโฟกัสที่ไหน”? HiLight นำเสนอเส้นทางใหม่ในการ “แทรกแซงฝั่งอินพุต” โดยการแทรกแท็กไฮไลต์จำนวนเล็กน้อยลงในข้อความต้นฉบับ เพื่อชี้นำการกระจายความสนใจของโมเดล

ภาพรวมของวิธีการ

ในการปรับใช้จริง โมเดลขนาดใหญ่มักเป็นบริการแบบกล่องดำที่เรียกใช้ผ่าน API และจ่ายเงินตามการใช้งาน มีขนาดใหญ่และไม่เปิดเผยน้ำหนัก การปรับแต่งโดยตรงด้วย SFT (Supervised Fine-Tuning) หรือ RL (Reinforcement Learning) มักไม่สามารถทำได้จริง ดังนั้น HiLight จึงเลือกเส้นทางที่ใช้งานได้จริงมากกว่า: แช่แข็งโมเดลการอนุมาน และฝึก “โมเดลผู้ช่วย” ขนาดเล็กเพื่อช่วยในการทำเครื่องหมายจุดสำคัญ

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ชื่อบทความ: Learning Evidence Highlighting for Frozen LLMs
ที่อยู่บทความ: https://arxiv.org/abs/2604.22565
ผู้เขียน: Shaoang Li1,∗, Yanhang Shi1,∗, Yufei Li2, Mingfu Liang2, Xiaohan Wei2, Yunchen Pu2, Fei Tian2, Chonglin Sun2, Frank Shyu2, Luke Simon2, Sandeep Pandey2, Xi Liu2,†, Jian Li1,†
สถาบัน: 1 มหาวิทยาลัย Stony Brook (Stony Brook University), 2 Meta AI
หมายเหตุ: ∗ ผู้เขียนร่วมคนแรก; † ผู้เขียนที่รับผิดชอบร่วม

ขั้นตอนการทำงานมีดังนี้:

โมเดลขนาดเล็ก (Emphasis Actor) อ่านบริบททั้งหมดและคำนวณคะแนนความสำคัญสำหรับแต่ละโทเค็น
โมเดลขนาดเล็กนี้จะแทรกแท็กไฮไลต์ที่ด้านข้างของส่วนที่ได้คะแนนสูงสุด เช่น <start_important> และ <end_important>
โมเดลการอนุมานที่ถูกแช่แข็ง (Solver LLM) จะได้รับข้อความที่มีแท็ก ทำการอนุมานและส่งออกผลลัพธ์สุดท้าย

กระบวนการฝึกอบรมอาศัยเฉพาะรางวัลจากงานของ Solver เป็นสัญญาณป้อนกลับ โดยไม่จำเป็นต้องมีการ标注หลักฐานในระดับมนุษย์ เนื่องจากขาดการ标注หลักฐานในระดับโทเค็น นักวิจัยจึงจำลองการเลือกไฮไลต์เป็นปัญหาการเรียนรู้แบบเสริมกำลัง โดยใช้เมตริกของงานปลายน้ำ (เช่น HR@10, EM, F1) เป็นสัญญาณรางวัล และอัปเดต Actor ผ่าน Group Policy Gradient

เพื่อป้องกันพฤติกรรม “ไฮไลต์ทั้งหมด” ของ Actor กรอบงานจึง引入了กลไกงบประมาณการไฮไลต์: โมเดลภาษาขนาดเล็กสามารถ标注ได้เฉพาะโทเค็นในสัดส่วนที่กำหนดเท่านั้น และใช้กลยุทธ์การรวมช่วง (span merging) เพื่อรวมการเลือกในระดับโทเค็นที่กระจัดกระจายให้เป็นส่วนที่สอดคล้องกันทางความหมาย

ผลการทดลองแสดงให้เห็นว่า HiLight ไม่ไวต่อค่าของงบประมาณ ซึ่งหมายความว่าในการปรับใช้จริงไม่จำเป็นต้องปรับพารามิเตอร์อย่างละเอียด เพียงเลือกค่ากลางที่เหมาะสมก็เพียงพอ

ผลการทดลอง

นักวิจัยได้ทำการประเมินผลในสี่งาน: Amazon-Beauty (การแนะนำแบบลำดับ), HotpotQA (การถาม-ตอบแบบหลายขั้นตอน), SQuAD 2.0 (การอ่านเพื่อความเข้าใจ) และ PubMedQA (การจำแนกประเภททางชีวการแพทย์) วิธีการเปรียบเทียบครอบคลุมวิธีการปรับแต่งพรอมต์ (Prompt Optimization) ที่นิยมในปัจจุบัน รวมถึง PRL, BFRS, OPRO, DSPy (MIPROv2) และ APE

ในจำนวนนี้ งานที่ได้รับการปรับปรุงมากที่สุดคืองานแนะนำแบบลำดับ (Amazon-Beauty) ในงานอื่นๆ แม้การปรับปรุงจะค่อนข้างน้อย แต่ผลลัพธ์ก็เป็นบวกเสมอ

ไฮไลต์ > การตัดทอน: ข้อดีของการรักษาบริบท

การทดสอบแบบ Ablation ได้ทำการเปรียบเทียบที่น่าสนใจ: หากตัดเฉพาะส่วนที่ Actor เลือกไฮไลต์ออกไปป้อนให้กับ Solver จะเกิดอะไรขึ้น?

ผลลัพธ์แสดงให้เห็นว่า ใน Amazon-Beauty การตัดทอนก็ให้ผลลัพธ์ที่ดีเช่นกัน แต่ใน HotpotQA กลับให้ผลตรงกันข้าม เนื่องจากงานถาม-ตอบแบบหลายขั้นตอนจำเป็นต้องรักษาบริบทที่มีความเชื่อมโยงกัน การตัดทอนแม้จะเลือกหลักฐานสำคัญได้ แต่กลับทำลายความสมบูรณ์ทางความหมาย ในขณะที่ HiLight สามารถ标注จุดสำคัญไปพร้อมกับการรักษาบริบททั้งหมดไว้

โมเดลไฮไลต์หนึ่งตัว ให้บริการโมเดลขนาดใหญ่หลายตัว

กลยุทธ์การไฮไลต์ที่ Actor เรียนรู้มีความสามารถในการถ่ายโอนสูง นักวิจัยใช้ Qwen3-14B เป็น Solver ในการฝึก Actor จากนั้นนำไปใช้กับ Solver ห้าตัวที่ไม่เคยเห็นมาก่อนโดยตรง ในการเปรียบเทียบ ให้ Solver เป้าหมายไฮไลต์หลักฐานด้วยตัวเองก่อนแล้วจึงตอบคำถาม

ผลลัพธ์แสดงให้เห็นว่า การไฮไลต์ของ Actor ของ HiLight มีประสิทธิภาพดีกว่าการไฮไลต์ด้วยตัวเองของ Solver ทั้งห้าตัวอย่างชัดเจน เหตุผลนั้นง่ายมาก: โมเดลขนาดเล็กที่ผ่านการฝึกฝนมาโดยเฉพาะนั้นเชื่อถือได้มากกว่าการที่โมเดลขนาดใหญ่เดาเองว่า “ส่วนไหนสำคัญ” Actor ของ HiLight ได้รับการฝึกฝนอย่างชัดแจ้งผ่านรางวัลจากงาน มันรู้ว่าหลักฐานแบบไหนที่จะช่วยปรับปรุงเมตริกปลายน้ำได้จริง

ไม่มีการ标注โดยมนุษย์ แต่สอดคล้องกับมนุษย์อย่างมาก

แม้ในกระบวนการฝึกอบรมจะไม่มีการ标注หลักฐานในระดับโทเค็นโดยมนุษย์ แต่พื้นที่ที่ Actor ไฮไลต์นั้นสอดคล้องกับข้อเท็จจริงที่สนับสนุนซึ่ง标注โดยมนุษย์ในชุดข้อมูล HotpotQA อย่างมาก โดยมีค่า F1 สูงสุดถึง 0.78 เมื่อขนาดของ Actor เพิ่มขึ้นจาก 0.6B เป็น 8B ค่า F1 ก็เพิ่มขึ้นอย่างซ้ำซากจาก 0.68 เป็น 0.78

ดังที่แสดงในภาพ ตัวชี้วัด Precision, Recall และ F1 ล้วนเพิ่มขึ้นอย่างซ้ำซากตามขนาดของ Actor โดย Precision สูงถึง 0.84 ซึ่งแสดงให้เห็นว่าโทเค็นส่วนใหญ่ที่ Actor ไฮไลต์นั้นเป็นหลักฐานสำคัญที่มนุษย์กำหนด

ภาพด้านบนแสดงการกระจายคะแนนระดับโทเค็นในตัวอย่าง HotpotQA: เส้นโค้งสีน้ำเงินคือคะแนนความสำคัญที่ Actor ให้ พื้นที่แรเงาสีแดงคือช่วงที่มีข้อเท็จจริงที่สนับสนุนซึ่ง标注โดยมนุษย์ ในบริบทที่มีความยาวมากกว่า 1200 โทเค็น Actor ให้คะแนนสูงเฉพาะในสองพื้นที่แคบๆ ซึ่งเป็นพื้นที่ที่มีหลักฐาน ground-truth ที่标注ไว้ในชุดข้อมูล

ต้นทุนการปรับใช้ต่ำ

ค่าใช้จ่ายโทเค็นฝั่ง Solver: < 1.01 เท่า (แทรกเฉพาะแท็กโทเค็นจำนวนเล็กน้อย)
ความหน่วงในการอนุมานของ Actor: โมเดล 0.6B ประมาณ 0.05 วินาที, โมเดล 4B ประมาณ 0.23 วินาที (p50) ซึ่งเล็กน้อยเมื่อเทียบกับ 8 ถึง 18 วินาทีของ Solver
ต้นทุนการฝึกอบรม: ต้องการการเรียกใช้ Solver เพียงประมาณ 12,000 ครั้ง ในขณะที่ PRL ต้องการ 120,000 ครั้ง และ APE ต้องการ 60,000 ครั้ง

ตัวอย่างที่เข้าใจง่าย: การปรับปรุงการแนะนำแบบลำดับ

ในตัวอย่างทั่วไปจาก Amazon-Beauty โมเดลจำเป็นต้องจัดลำดับสินค้าที่เป็นตัวเลือกใหม่ โดยพิจารณาจากประวัติการซื้อของผู้ใช้ที่สรุปไว้และชุดสินค้าที่เป็นตัวเลือก โดยอิงจากสินค้าที่ผู้ใช้อาจสนใจถัดไป Actor ได้ไฮไลต์เนื้อหาสำคัญสองส่วนอย่างแม่นยำ สัญญาณทั้งสองนี้ช่วยให้ Solver ปรับปรุงอันดับการแนะนำของสินค้าเป้าหมายที่แท้จริง (ผลิตภัณฑ์รองพื้นชนิดหนึ่งที่เน้น “Grips Makeup To Last”) จากอันดับที่ 14 ขึ้นเป็นอันดับที่ 5 ซึ่งเป็นการปรับปรุงอันดับที่สำคัญ

แตกต่างจากกลไกความสนใจแบบกล่องดำ HiLight บอกผู้ใช้โดยตรงว่า: โมเดลปรับปรุงอันดับของสินค้านี้ขึ้นเพราะเห็นข้อความที่ไฮไลต์สองส่วนนี้ ซึ่งช่วยเพิ่มความน่าเชื่อถือของผลลัพธ์การแนะนำของโมเดลได้อย่างมาก

บทสรุป

แนวคิดของ HiLight นั้นง่ายมาก: ใช้โมเดลขนาดเล็กในการขีดเส้นใต้จุดสำคัญ และให้โมเดลขนาดใหญ่มีสมาธิในการอนุมาน วิธีนี้นำมาซึ่งข้อดีหลายประการ:

ประสิทธิภาพดีขึ้น: ประสิทธิภาพของงานแนะนำเพิ่มขึ้นได้ถึง 27% และงานถาม-ตอบก็มีแนวโน้มดีขึ้นเช่นกัน
ไม่ต้องแก้ไขโมเดล: Solver ถูกแช่แข็ง เป็นมิตรกับ API
อธิบายได้: แท็กไฮไลต์สามารถบอกมนุษย์ได้โดยตรงว่า “โมเดลกำลังมองที่ไหน” และโมเดลตัดสินใจโดยอิงจากอะไร
ถ่ายโอนได้: Actor หนึ่งตัวสามารถให้บริการโมเดลขนาดใหญ่ที่แตกต่างกันหลายตัว
ต้นทุนต่ำ: ต้นทุนการฝึกอบรมต่ำ ความหน่วงและต้นทุนการอนุมานเพิ่มเติมมีน้อย

เนื่องจากระบบต่างๆ จำนวนมากขึ้นเรื่อยๆ เรียกใช้โมเดลขนาดใหญ่ผ่าน API HiLight จึงนำเสนอวิธีการที่มีประสิทธิภาพในการปรับปรุงประสิทธิภาพโดยไม่ต้องแก้ไข Solver

ที่น่าสนใจคือ ทีมผู้เขียนบทความนี้มีความทับซ้อนสูงกับสมาชิกในทีมโครงการ GR2 (Generative Reasoning Re-ranker, arXiv:2602.07774) ของ Meta ซึ่งหมายความว่าวิธีการที่ HiLight นำเสนอนั้น มีความเป็นไปได้สูงที่จะถูกรวมเข้ากับระบบการจัดลำดับใหม่ระดับอุตสาหกรรม เช่น GR2 ในอนาคตอันใกล้ เพื่อให้บริการในสภาพแวดล้อมการผลิตจริงโดยตรง