แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ในสถานการณ์การใช้งานจริง โมเดลภาษาขนาดใหญ่มักจะพลาดข้อมูลสำคัญ ซึ่งเป็นปรากฏการณ์ที่เรียกว่า “Lost in the Middle” (หลงทางตรงกลาง) กล่าวคือ โมเดลให้ความสนใจกับเนื้อหาที่อยู่ตรงกลางของอินพุตน้อยกว่าอย่างเห็นได้ชัด ปัจจุบัน กลยุทธ์การปรับแต่งที่นิยมแบ่งออกเป็นสองแนวทางหลัก:

  • การเลือกแบบฮาร์ด (Hard Selection): ขั้นแรกให้ดึงหรือตัดส่วนที่เกี่ยวข้องออกมา จากนั้นจึงป้อนให้กับโมเดล แต่วิธีนี้อาจทำให้สูญเสียข้อมูลบริบทที่สำคัญต่อการอนุมาน
  • การเลือกแบบซอฟต์ (Soft Selection): ใช้เทคนิคการสรุปความหรือการบีบอัดเพื่อลดความยาวของข้อความอินพุต อย่างไรก็ตาม การบีบอัดแบบสูญเสียข้อมูลย่อมทำให้เกิดการบิดเบือนของข้อมูลอย่างหลีกเลี่ยงไม่ได้

ทั้งสองวิธีนี้โดยพื้นฐานแล้วเป็นการ “ดัดแปลง” อินพุตดั้งเดิมหรือน้ำหนักของโมเดล แล้วมีวิธีใดบ้างที่สามารถรักษาบริบททั้งหมดไว้ได้ พร้อมกับบอกโมเดลได้อย่างแม่นยำว่า “ควรโฟกัสที่ไหน”? HiLight นำเสนอเส้นทางใหม่ในการ “แทรกแซงฝั่งอินพุต” โดยการแทรกแท็กไฮไลต์จำนวนเล็กน้อยลงในข้อความต้นฉบับ เพื่อชี้นำการกระจายความสนใจของโมเดล


ภาพรวมของวิธีการ

ในการปรับใช้จริง โมเดลขนาดใหญ่มักเป็นบริการแบบกล่องดำที่เรียกใช้ผ่าน API และจ่ายเงินตามการใช้งาน มีขนาดใหญ่และไม่เปิดเผยน้ำหนัก การปรับแต่งโดยตรงด้วย SFT (Supervised Fine-Tuning) หรือ RL (Reinforcement Learning) มักไม่สามารถทำได้จริง ดังนั้น HiLight จึงเลือกเส้นทางที่ใช้งานได้จริงมากกว่า: แช่แข็งโมเดลการอนุมาน และฝึก “โมเดลผู้ช่วย” ขนาดเล็กเพื่อช่วยในการทำเครื่องหมายจุดสำคัญ

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

  • ชื่อบทความ: Learning Evidence Highlighting for Frozen LLMs
  • ที่อยู่บทความ: https://arxiv.org/abs/2604.22565
  • ผู้เขียน: Shaoang Li1,∗, Yanhang Shi1,∗, Yufei Li2, Mingfu Liang2, Xiaohan Wei2, Yunchen Pu2, Fei Tian2, Chonglin Sun2, Frank Shyu2, Luke Simon2, Sandeep Pandey2, Xi Liu2,†, Jian Li1,†
  • สถาบัน: 1 มหาวิทยาลัย Stony Brook (Stony Brook University), 2 Meta AI
  • หมายเหตุ: ∗ ผู้เขียนร่วมคนแรก; † ผู้เขียนที่รับผิดชอบร่วม

ขั้นตอนการทำงานมีดังนี้:

  1. โมเดลขนาดเล็ก (Emphasis Actor) อ่านบริบททั้งหมดและคำนวณคะแนนความสำคัญสำหรับแต่ละโทเค็น
  2. โมเดลขนาดเล็กนี้จะแทรกแท็กไฮไลต์ที่ด้านข้างของส่วนที่ได้คะแนนสูงสุด เช่น <start_important> และ <end_important>
  3. โมเดลการอนุมานที่ถูกแช่แข็ง (Solver LLM) จะได้รับข้อความที่มีแท็ก ทำการอนุมานและส่งออกผลลัพธ์สุดท้าย

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

กระบวนการฝึกอบรมอาศัยเฉพาะรางวัลจากงานของ Solver เป็นสัญญาณป้อนกลับ โดยไม่จำเป็นต้องมีการ标注หลักฐานในระดับมนุษย์ เนื่องจากขาดการ标注หลักฐานในระดับโทเค็น นักวิจัยจึงจำลองการเลือกไฮไลต์เป็นปัญหาการเรียนรู้แบบเสริมกำลัง โดยใช้เมตริกของงานปลายน้ำ (เช่น HR@10, EM, F1) เป็นสัญญาณรางวัล และอัปเดต Actor ผ่าน Group Policy Gradient

เพื่อป้องกันพฤติกรรม “ไฮไลต์ทั้งหมด” ของ Actor กรอบงานจึง引入了กลไกงบประมาณการไฮไลต์: โมเดลภาษาขนาดเล็กสามารถ标注ได้เฉพาะโทเค็นในสัดส่วนที่กำหนดเท่านั้น และใช้กลยุทธ์การรวมช่วง (span merging) เพื่อรวมการเลือกในระดับโทเค็นที่กระจัดกระจายให้เป็นส่วนที่สอดคล้องกันทางความหมาย

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ผลการทดลองแสดงให้เห็นว่า HiLight ไม่ไวต่อค่าของงบประมาณ ซึ่งหมายความว่าในการปรับใช้จริงไม่จำเป็นต้องปรับพารามิเตอร์อย่างละเอียด เพียงเลือกค่ากลางที่เหมาะสมก็เพียงพอ


ผลการทดลอง

นักวิจัยได้ทำการประเมินผลในสี่งาน: Amazon-Beauty (การแนะนำแบบลำดับ), HotpotQA (การถาม-ตอบแบบหลายขั้นตอน), SQuAD 2.0 (การอ่านเพื่อความเข้าใจ) และ PubMedQA (การจำแนกประเภททางชีวการแพทย์) วิธีการเปรียบเทียบครอบคลุมวิธีการปรับแต่งพรอมต์ (Prompt Optimization) ที่นิยมในปัจจุบัน รวมถึง PRL, BFRS, OPRO, DSPy (MIPROv2) และ APE

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ในจำนวนนี้ งานที่ได้รับการปรับปรุงมากที่สุดคืองานแนะนำแบบลำดับ (Amazon-Beauty) ในงานอื่นๆ แม้การปรับปรุงจะค่อนข้างน้อย แต่ผลลัพธ์ก็เป็นบวกเสมอ


ไฮไลต์ > การตัดทอน: ข้อดีของการรักษาบริบท

การทดสอบแบบ Ablation ได้ทำการเปรียบเทียบที่น่าสนใจ: หากตัดเฉพาะส่วนที่ Actor เลือกไฮไลต์ออกไปป้อนให้กับ Solver จะเกิดอะไรขึ้น?

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ผลลัพธ์แสดงให้เห็นว่า ใน Amazon-Beauty การตัดทอนก็ให้ผลลัพธ์ที่ดีเช่นกัน แต่ใน HotpotQA กลับให้ผลตรงกันข้าม เนื่องจากงานถาม-ตอบแบบหลายขั้นตอนจำเป็นต้องรักษาบริบทที่มีความเชื่อมโยงกัน การตัดทอนแม้จะเลือกหลักฐานสำคัญได้ แต่กลับทำลายความสมบูรณ์ทางความหมาย ในขณะที่ HiLight สามารถ标注จุดสำคัญไปพร้อมกับการรักษาบริบททั้งหมดไว้


โมเดลไฮไลต์หนึ่งตัว ให้บริการโมเดลขนาดใหญ่หลายตัว

กลยุทธ์การไฮไลต์ที่ Actor เรียนรู้มีความสามารถในการถ่ายโอนสูง นักวิจัยใช้ Qwen3-14B เป็น Solver ในการฝึก Actor จากนั้นนำไปใช้กับ Solver ห้าตัวที่ไม่เคยเห็นมาก่อนโดยตรง ในการเปรียบเทียบ ให้ Solver เป้าหมายไฮไลต์หลักฐานด้วยตัวเองก่อนแล้วจึงตอบคำถาม

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ผลลัพธ์แสดงให้เห็นว่า การไฮไลต์ของ Actor ของ HiLight มีประสิทธิภาพดีกว่าการไฮไลต์ด้วยตัวเองของ Solver ทั้งห้าตัวอย่างชัดเจน เหตุผลนั้นง่ายมาก: โมเดลขนาดเล็กที่ผ่านการฝึกฝนมาโดยเฉพาะนั้นเชื่อถือได้มากกว่าการที่โมเดลขนาดใหญ่เดาเองว่า “ส่วนไหนสำคัญ” Actor ของ HiLight ได้รับการฝึกฝนอย่างชัดแจ้งผ่านรางวัลจากงาน มันรู้ว่าหลักฐานแบบไหนที่จะช่วยปรับปรุงเมตริกปลายน้ำได้จริง


ไม่มีการ标注โดยมนุษย์ แต่สอดคล้องกับมนุษย์อย่างมาก

แม้ในกระบวนการฝึกอบรมจะไม่มีการ标注หลักฐานในระดับโทเค็นโดยมนุษย์ แต่พื้นที่ที่ Actor ไฮไลต์นั้นสอดคล้องกับข้อเท็จจริงที่สนับสนุนซึ่ง标注โดยมนุษย์ในชุดข้อมูล HotpotQA อย่างมาก โดยมีค่า F1 สูงสุดถึง 0.78 เมื่อขนาดของ Actor เพิ่มขึ้นจาก 0.6B เป็น 8B ค่า F1 ก็เพิ่มขึ้นอย่างซ้ำซากจาก 0.68 เป็น 0.78

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ดังที่แสดงในภาพ ตัวชี้วัด Precision, Recall และ F1 ล้วนเพิ่มขึ้นอย่างซ้ำซากตามขนาดของ Actor โดย Precision สูงถึง 0.84 ซึ่งแสดงให้เห็นว่าโทเค็นส่วนใหญ่ที่ Actor ไฮไลต์นั้นเป็นหลักฐานสำคัญที่มนุษย์กำหนด

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

ภาพด้านบนแสดงการกระจายคะแนนระดับโทเค็นในตัวอย่าง HotpotQA: เส้นโค้งสีน้ำเงินคือคะแนนความสำคัญที่ Actor ให้ พื้นที่แรเงาสีแดงคือช่วงที่มีข้อเท็จจริงที่สนับสนุนซึ่ง标注โดยมนุษย์ ในบริบทที่มีความยาวมากกว่า 1200 โทเค็น Actor ให้คะแนนสูงเฉพาะในสองพื้นที่แคบๆ ซึ่งเป็นพื้นที่ที่มีหลักฐาน ground-truth ที่标注ไว้ในชุดข้อมูล


ต้นทุนการปรับใช้ต่ำ

  • ค่าใช้จ่ายโทเค็นฝั่ง Solver: < 1.01 เท่า (แทรกเฉพาะแท็กโทเค็นจำนวนเล็กน้อย)
  • ความหน่วงในการอนุมานของ Actor: โมเดล 0.6B ประมาณ 0.05 วินาที, โมเดล 4B ประมาณ 0.23 วินาที (p50) ซึ่งเล็กน้อยเมื่อเทียบกับ 8 ถึง 18 วินาทีของ Solver
  • ต้นทุนการฝึกอบรม: ต้องการการเรียกใช้ Solver เพียงประมาณ 12,000 ครั้ง ในขณะที่ PRL ต้องการ 120,000 ครั้ง และ APE ต้องการ 60,000 ครั้ง

ตัวอย่างที่เข้าใจง่าย: การปรับปรุงการแนะนำแบบลำดับ

ในตัวอย่างทั่วไปจาก Amazon-Beauty โมเดลจำเป็นต้องจัดลำดับสินค้าที่เป็นตัวเลือกใหม่ โดยพิจารณาจากประวัติการซื้อของผู้ใช้ที่สรุปไว้และชุดสินค้าที่เป็นตัวเลือก โดยอิงจากสินค้าที่ผู้ใช้อาจสนใจถัดไป Actor ได้ไฮไลต์เนื้อหาสำคัญสองส่วนอย่างแม่นยำ สัญญาณทั้งสองนี้ช่วยให้ Solver ปรับปรุงอันดับการแนะนำของสินค้าเป้าหมายที่แท้จริง (ผลิตภัณฑ์รองพื้นชนิดหนึ่งที่เน้น “Grips Makeup To Last”) จากอันดับที่ 14 ขึ้นเป็นอันดับที่ 5 ซึ่งเป็นการปรับปรุงอันดับที่สำคัญ

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน

แตกต่างจากกลไกความสนใจแบบกล่องดำ HiLight บอกผู้ใช้โดยตรงว่า: โมเดลปรับปรุงอันดับของสินค้านี้ขึ้นเพราะเห็นข้อความที่ไฮไลต์สองส่วนนี้ ซึ่งช่วยเพิ่มความน่าเชื่อถือของผลลัพธ์การแนะนำของโมเดลได้อย่างมาก


บทสรุป

แนวคิดของ HiLight นั้นง่ายมาก: ใช้โมเดลขนาดเล็กในการขีดเส้นใต้จุดสำคัญ และให้โมเดลขนาดใหญ่มีสมาธิในการอนุมาน วิธีนี้นำมาซึ่งข้อดีหลายประการ:

  • ประสิทธิภาพดีขึ้น: ประสิทธิภาพของงานแนะนำเพิ่มขึ้นได้ถึง 27% และงานถาม-ตอบก็มีแนวโน้มดีขึ้นเช่นกัน
  • ไม่ต้องแก้ไขโมเดล: Solver ถูกแช่แข็ง เป็นมิตรกับ API
  • อธิบายได้: แท็กไฮไลต์สามารถบอกมนุษย์ได้โดยตรงว่า “โมเดลกำลังมองที่ไหน” และโมเดลตัดสินใจโดยอิงจากอะไร
  • ถ่ายโอนได้: Actor หนึ่งตัวสามารถให้บริการโมเดลขนาดใหญ่ที่แตกต่างกันหลายตัว
  • ต้นทุนต่ำ: ต้นทุนการฝึกอบรมต่ำ ความหน่วงและต้นทุนการอนุมานเพิ่มเติมมีน้อย

เนื่องจากระบบต่างๆ จำนวนมากขึ้นเรื่อยๆ เรียกใช้โมเดลขนาดใหญ่ผ่าน API HiLight จึงนำเสนอวิธีการที่มีประสิทธิภาพในการปรับปรุงประสิทธิภาพโดยไม่ต้องแก้ไข Solver

ที่น่าสนใจคือ ทีมผู้เขียนบทความนี้มีความทับซ้อนสูงกับสมาชิกในทีมโครงการ GR2 (Generative Reasoning Re-ranker, arXiv:2602.07774) ของ Meta ซึ่งหมายความว่าวิธีการที่ HiLight นำเสนอนั้น มีความเป็นไปได้สูงที่จะถูกรวมเข้ากับระบบการจัดลำดับใหม่ระดับอุตสาหกรรม เช่น GR2 ในอนาคตอันใกล้ เพื่อให้บริการในสภาพแวดล้อมการผลิตจริงโดยตรง

แช่แข็งโมเดลใหญ่ก็ยังสามารถเน้นจุดสำคัญได้อย่างแม่นยำ? วิธีใหม่ของ HiLight ใช้ผู้ช่วยน้ำหนักเบานำทางความสนใจ เพิ่มประสิทธิภาพการอนุมาน


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34121

Like (0)
Previous 1 day ago
Next 1 day ago

相关推荐