ก้าวข้ามข้อจำกัดการเพิ่มประสิทธิภาพหลายเป้าหมาย: กรอบ HVO-GRPO ของทีม Li Auto ช่วยให้โมเดล 7B มีประสิทธิภาพเทียบเท่า GPT-4 ในการสรุป

2026年2月9日 pm8:24 • ข่าวสารอุตสาหกรรม AI • 5 views

ทีม HVO-GRPO ส่งบทความ

QubitAI | บัญชี WeChat QbitAI

การสรุปข้อความซึ่งเป็นงานหลักของการประมวลผลภาษาธรรมชาติ (NLP) การประเมินคุณภาพมักต้องคำนึงถึงหลายมิติ เช่น ความสอดคล้อง (Consistency), ความต่อเนื่องเชื่อมโยง (Coherence), ความราบรื่น (Fluency) และความเกี่ยวข้อง (Relevance)

อย่างไรก็ตาม ในกระบวนการปรับปรุงจริง นักพัฒนามักเผชิญกับสถานการณ์ “แก้ปัญหาหนึ่งแต่สร้างปัญหาอื่น”: การปรับปรุงความเกี่ยวข้อง อาจทำให้ความสอดคล้องลดลงตามมา แล้วจะทำให้โมเดลบรรลุ “ภาวะที่เหมาะสมที่สุดแบบพาเรโต (Pareto optimal)” ระหว่างหลายเป้าหมายได้อย่างไร?

เมื่อเร็วๆ นี้ งานวิจัยหนึ่งจากทีม Li Auto ที่ได้รับการตีพิมพ์ใน ICASSP 2026 ได้เสนอ HyperVolume Optimization (HVO) นี่เป็นกลยุทธ์การเรียนรู้แบบเสริมกำลังหลายเป้าหมาย (MORL) แบบใหม่ โดยอิงบนเฟรมเวิร์ก GRPO ไม่จำเป็นต้องใช้ SFT หรือการเริ่มต้นแบบเย็น (cold start) ก็สามารถทำให้โมเดลขนาด 7B พารามิเตอร์ แสดงประสิทธิภาพทัดเทียม GPT-4 ในงานสรุปข้อความได้ และยังสร้างเนื้อหาที่กระชับกว่า

ก้าวข้ามข้อจำกัดการเพิ่มประสิทธิภาพหลายเป้าหมาย: กรอบ HVO-GRPO ของทีม Li Auto ช่วยให้โมเดล 7B มีประสิทธิภาพเทียบเท่า GPT-4 ในการสรุป

△แผนภูมิเรดาร์เปรียบเทียบประสิทธิภาพ HVO

ภูมิหลังการวิจัย

จุดเจ็บปวดหลัก: “ความไม่สมดุล” ในการปรับให้เหมาะสมหลายเป้าหมาย

การสร้างบทสรุปข้อความเป็นงานหลักที่ท้าทายใน NLP เพื่อประเมินคุณภาพของบทสรุปที่สร้างขึ้นอย่างรอบด้าน นักวิจัยมักจะพิจารณาหลายมิติ เช่น ความต่อเนื่องเชื่อมโยง, ความสอดคล้อง, ความราบรื่น และความเกี่ยวข้อง อย่างไรก็ตาม การปรับให้เหมาะสมเป้าหมายหลายมิติเหล่านี้พร้อมกันเป็นเรื่องท้าทาย เนื่องจากการปรับปรุงในมิติหนึ่งอาจทำให้มิติอื่นต้องเสียสละ ส่งผลให้ได้บทสรุปที่ไม่สมดุล

งานวิจัยการสรุปข้อความในปัจจุบันส่วนใหญ่พึ่งพาสัญญาณรางวัลเดียว ทำให้ยากต่อการบูรณาการตัวชี้วัดหลายมิติ แม้จะใช้รางวัลหลายมิติ ก็มักจะเป็นการรวมคะแนนแต่ละด้านแบบถ่วงน้ำหนักเชิงเส้น (Weighted Linear Combination) อย่างง่ายๆ

ข้อจำกัดของวิธีดั้งเดิม

วิธีปฏิบัติแบบดั้งเดิมนี้มีข้อจำกัดชัดเจน:

1. พึ่งพามนุษย์: ต้องกำหนดน้ำหนักด้วยมือซึ่งยุ่งยาก

2. ความขัดแย้งของเป้าหมาย: ไม่สามารถจัดการการพึ่งพาซึ่งกันและกันระหว่างเป้าหมายได้อย่างมีประสิทธิภาพ มักนำไปสู่ผลลัพธ์การปรับให้เหมาะสมที่ไม่สมบูรณ์หรือไม่สมดุลอย่างรุนแรง

ก่อนหน้านี้ แม้จะมีวิธีเช่น MDO พยายามบรรเทาความขัดแย้งผ่านการฉายภาพเกรเดียนต์ (gradient projection) แต่เนื่องจากต้นทุนการคำนวณสูงเกินไป จึงยากที่จะบูรณาการเข้ากับโมเดลภาษาขนาดใหญ่ (LLM)

แนะนำวิธีการ

โซลูชันนวัตกรรม: นำตัวชี้วัดไฮเปอร์วอลุ่ม HVO มาใช้

เพื่อแก้ปัญหาข้างต้น นักวิจัยได้นำแนวคิด ไฮเปอร์วอลุ่ม (Hypervolume) จากการปรับให้เหมาะสมหลายเป้าหมาย มาใช้ในโครงสร้างรางวัลของการเรียนรู้แบบเสริมกำลัง

จุดเด่นทางเทคนิคสามประการของ HVO

1. อิงบนเฟรมเวิร์ก GRPO

อ้างอิงจากกระบวนทัศน์การฝึกเช่น DeepSeek-R1-Zero, HVO ใช้ Group Relative Policy Optimization (GRPO) โดยตรงบนโมเดลพื้นฐาน โดยไม่ต้องผ่านการปรับแต่งภายใต้การดูแล (SFT)

โดยที่:

2. ปรับคะแนนแบบไดนามิก

HVO ใช้วิธีไฮเปอร์วอลุ่ม เพื่อปรับน้ำหนักระหว่างกลุ่มคะแนนต่างๆ แบบไดนามิกในกระบวนการเรียนรู้แบบเสริมกำลัง นำทางโมเดลให้ค่อยๆ เข้าใกล้แนวหน้าแบบพาเรโต (Pareto front)

3. กลไกข้อจำกัดความยาว

เพื่อแก้ปัญหาความไม่มั่นคงและ “การยุบตัวของความยาว (length collapse)” ที่พบบ่อยในการฝึก GRPO, HVO ได้เสนอรางวัลข้อจำกัดความยาวใหม่ (R conciseness) โดยควบคุมอัตราการบีบอัดเพื่อให้แน่ใจว่าโมเดลมีความกระชับในขณะที่ยังคงการลู่เข้า (convergence) ที่มั่นคง

แผนภาพขั้นตอนวิธี

△ แผนภาพแสดงกระบวนการโดยรวมของ HVO การใช้การคำนวณไฮเปอร์วอลุ่มแทนการรวมถ่วงน้ำหนักแบบง่าย ทำให้โมเดลมีแนวโน้มเลือกคำตอบที่สมดุลกว่าในแต่ละมิติ

ผลการทดลอง: การ “โจมตีแบบลดมิติ” ของโมเดล 7B

ทีมวิจัยได้ทดสอบ HVO บนชุดข้อมูลมาตรฐานสองชุดหลัก ได้แก่ CNN/DailyMail (ประเภทข่าว) และ BillSum (ประเภทกฎหมาย) โดยใช้ Qwen 2.5-7B-Instruct เป็นโมเดลพื้นฐานในการทดลอง

1. ความสามารถรอบด้านเหนือกว่า GPT-4

ในการทดสอบด้วยเครื่องมือประเมินหลายมิติ UniEval โมเดล 7B ที่ได้รับการเสริมด้วย HVO แสดงผลที่น่าประหลาดใจ:

คะแนน HV และคะแนนรวมบนชุดข้อมูลทั้งสอง ดีกว่าวิธีมาตรฐานทั้งหมด
เปรียบเทียบกับ GPT-4: แม้ GPT-4 จะมีข้อได้เปรียบเล็กน้อยในด้านความต่อเนื่องเชื่อมโยงและความเกี่ยวข้อง แต่ Qwen 2.5 7B (HVO) มีประสิทธิภาพโดยรวมและความสมดุลของมิติทัดเทียมกับ GPT-4

2. การแสดงผลบนแผนภูมิเรดาร์ที่สมดุลกว่า

เมื่อเปรียบเทียบกับ GRPO พบว่า GRPO ในช่วงต้นการฝึกจะมุ่งเน้นความราบรื่นและความเกี่ยวข้องมากเกินไป จึงจำกัดการเพิ่มขึ้นของความสอดคล้อง ในขณะที่ HVO สามารถปรับให้เหมาะสมตัวชี้วัดต่างๆ อย่างสม่ำเสมอ แสดงพื้นที่ครอบคลุมที่สมบูรณ์และมั่นคงกว่าบนแผนภูมิเรดาร์

3. ปฏิเสธ “คำพูดฟุ่มเฟือย” กระชับกว่า

การวิเคราะห์แผนภาพกระจาย (scatter plot) แสดงให้เห็นว่า HVO ในขณะที่รักษาคะแนนรวมสูงสุด บทสรุปที่สร้างขึ้นมีความยาวสั้นกว่า แสดงความกระชับ (Conciseness) ที่ยอดเยี่ยม

สรุปและแนวโน้มในอนาคต

ผลงานหลัก

บทความนี้แนะนำ วิธีการเรียนรู้แบบเสริมกำลังด้วยการปรับให้เหมาะสมไฮเปอร์วอลุ่ม (HVO) ซึ่งเป็นเฟรมเวิร์กการเรียนรู้แบบเสริมกำลังหลายเป้าหมายสำหรับการสรุปข้อความ สามารถปรับให้เหมาะสมตัวชี้วัดไฮเปอร์วอลุ่มโดยตรงในพื้นที่เป้าหมายหลายมิติ โดยการสร้างสมดุลระหว่างตัวชี้วัดประเมินหลายตัว HVO บรรลุวิถีการเข้าใกล้แนวหน้าแบบพาเรโตที่มั่นคงและมีประสิทธิภาพมากขึ้น

การยืนยันด้วยการทดลอง

การทดลองบน CNN/DailyMail และ BillSum แสดงว่า HVO ได้รับ คะแนนไฮเปอร์วอลุ่มและคะแนนรวมที่ทันสมัยที่สุด ดีกว่าวิธีที่มีอยู่ และสามารถเทียบเคียงกับ GPT-4 ได้ โดยไม่จำเป็นต้องปรับแต่งภายใต้การดูแลหรือการเริ่มต้นแบบเย็น

ความสำคัญของการวิจัย

ผลลัพธ์เหล่านี้ยืนยันประสิทธิผลของ HVO ในการจัดการกับการแลกเปลี่ยนที่ซับซ้อนและการสร้างบทสรุปคุณภาพสูง เป็นโซลูชันที่แข็งแกร่งสำหรับการสรุปข้อความหลายเป้าหมาย มันพิสูจน์ว่าด้วยกลยุทธ์การปรับให้เหมาะสมทางวิทยาศาสตร์ โมเดลโอเพ่นซอร์สขนาดเล็กมีศักยภาพเต็มที่ที่จะเทียบเคียงกับโมเดลใหญ่แบบปิดที่ยอดเยี่ยมในงานเฉพาะ

ทิศทางในอนาคต

ทีมวิจัยระบุว่าในอนาคตจะสำรวจ:

ขยาย HVO ไปยังงาน NLP อื่นๆ
สำรวจโครงสร้างรางวัลที่ซับซ้อนยิ่งขึ้น
ศักยภาพการประยุกต์ใช้บนโมเดลขนาดใหญ่ขึ้น

ชื่อบทความวิจัย:
Hypervolume Optimization via Multi-Objective Reinforcement Learning for Balanced Text Summarization
ที่อยู่บทความวิจัย:
https://arxiv.org/abs/2510.19325
ที่เก็บโค้ด:
https://github.com/ai4business-LiAuto/HVO ⭐ เปิดแหล่งแล้ว
การประชุมที่ตีพิมพ์:
ICASSP 2026

ติดตาม “鲸栖” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22989