Tencent Hunyuan เปิดตัว HY-SOAR: สอนโมเดล Diffusion ให้รู้จักสะท้อนตนเอง ดีกว่าวิธี RL โดยไม่ต้องใช้ Reward Model
เมื่อเร็วๆ นี้ ทีม Tencent Hunyuan ได้เสนอ HY-SOAR (Self-Correction for Optimal Alignment and Refinement) ซึ่งเป็นวิธีการฝึกอบรมหลังกระบวนการ (post-training) ที่ขับเคลื่อนด้วยข้อมูล สำหรับโมเดล Diffusion และโมเดล Flow Matching
SOAR ไม่พึ่งพา Reward Model ไม่ต้องใช้การระบุความชอบ (preference labeling) ไม่ต้องใช้ตัวอย่างเชิงลบ (negative samples) แต่ขุดสัญญาณแก้ไขในระดับวิถี (trajectory-level correction signals) โดยตรงจากข้อมูลการฝึก ทำให้โมเดลเรียนรู้ที่จะสะท้อนตนเองและแก้ไขข้อผิดพลาดในระหว่างกระบวนการลดสัญญาณรบกวน (denoising) ซึ่งเป็นเส้นทางใหม่สำหรับการฝึกอบรมหลังกระบวนการของโมเดลสร้างภาพ
อุปสรรคหลักของการฝึกอบรมหลังกระบวนการ: ไม่ใช่ข้อมูลไม่ดีพอ แต่ใช้ข้อมูลไม่เต็มที่
เส้นทางหลักสองเส้นทางของการฝึกอบรมหลังกระบวนการของโมเดล Diffusion ได้แก่ SFT และ RL ต่างก็มีจุดอ่อนที่ชัดเจนในการใช้ข้อมูล
SFT เรียนรู้เฉพาะ “คำตอบมาตรฐาน” ไม่สามารถ “แก้ไขข้อผิดพลาด”:
SFT ทำการกำกับดูแล (supervision) โดยตรงบนข้อมูลคุณภาพสูง แต่มันสอนให้โมเดลจัดการเฉพาะ “วิถีในอุดมคติ” ซึ่งเป็นสถานะกลางมาตรฐานที่ได้จากการเติมสัญญาณรบกวนไปข้างหน้าบนข้อมูลจริง
ปัญหาคือ ในระหว่างการอนุมาน โมเดลจะเดินตามวิถีของตัวเอง เมื่อเกิดการเบี่ยงเบนในขั้นตอนแรกๆ ของการลดสัญญาณรบกวน สถานะต่อๆ ไปจะเข้าสู่พื้นที่ที่ไม่เคยเห็นมาก่อนในการฝึก ข้อมูลที่มีข้อมูลเกี่ยวกับ “โมเดลอาจจะเบี่ยงเบนไปอย่างไร และจะแก้ไขอย่างไร” นั้น SFT ไม่ได้นำมาใช้เลย
RL ก็เดินไปอีกทางที่อ้อมค้อม โดย “บีบอัดและสูญเสียข้อมูล”:
ขั้นแรก แปลงข้อมูลคุณภาพสูงเป็นคะแนนปลายทางผ่าน Reward Model จากนั้นใช้สัญญาณที่เบาบางนี้เพื่อปรับวิถีการสร้างทั้งหมด โดยพื้นฐานแล้วนี่คือการบีบอัดแบบสูญเสีย (lossy compression) ข้อมูลระดับวิถีที่หลากหลายถูกบีบอัดเป็นรางวัลสเกลาร์เดียว ทำให้สัญญาณจำนวนมากที่สามารถใช้แก้ไขขั้นตอนกลางสูญหายไปในระหว่างการแปลง ที่แย่กว่านั้น ความเบาบางของสัญญาณรางวัลยังนำไปสู่ปัญหา Credit Assignment และ Reward Hacking
โมเดลระดับแนวหน้า = คุณภาพข้อมูล × อัตราการใช้ข้อมูล เมื่อคุณภาพข้อมูลสูงพอแล้ว อุปสรรคก็คืออัตราการใช้ข้อมูล RL มีส่วนลดในเรื่องอัตราการใช้ข้อมูล เป้าหมายของ SOAR คือการนำส่วนลดนั้นกลับคืนมา

รูปที่ 1: SFT ฝึกเฉพาะบนวิถีในอุดมคติ สูญเสียข้อมูลการแก้ไขในข้อมูล; RL บีบอัดข้อมูลเป็นรางวัลปลายทางที่เบาบาง ทำให้อัตราการใช้ข้อมูลถูกจำกัด; SOAR ดึงสัญญาณแก้ไขวิถีที่หนาแน่นจากข้อมูลโดยตรง
SOAR: ทำให้โมเดลสร้างมีความสามารถในการสะท้อนตนเอง
เส้นทางวิวัฒนาการของ Large Language Models คือ: Pre-training → SFT → RLHF → การสะท้อนตนเอง (self-correction ที่เป็นตัวแทนโดย o1/o3) โมเดลสร้างภาพกำลังเดินตามเส้นทางเดียวกัน และ SOAR คือก้าวสำคัญบนเส้นทางนี้
SOAR ทำให้โมเดล Diffusion มีความสามารถในการ “ตรวจสอบและแก้ไขพฤติกรรมของตนเองในระหว่างกระบวนการสร้าง” เป็นครั้งแรก ตรรกะการทำงานของมันชัดเจน:
- ดำเนินการอนุมานไปข้างหน้าแบบไม่มีเกรเดียนต์ (gradient-free) หนึ่งขั้นตอนกับตัวอย่างจริง เพื่อจำลองการเบี่ยงเบนที่โมเดลอาจสร้างขึ้นเอง
- เติมสัญญาณรบกวนเพิ่มเติมให้กับสถานะที่เบี่ยงเบน เพื่อสร้างจุดช่วยฝึกนอกวิถี (off-trajectory auxiliary training points)
- ใช้ตัวอย่างดั้งเดิมเป็นจุดยึด (anchor) คำนวณเป้าหมายการแก้ไขเชิงวิเคราะห์ (analytical correction target)
กระบวนการทั้งหมดไม่จำเป็นต้องใช้ Reward Model ไม่ต้องใช้การระบุความชอบ ไม่ต้องใช้ตัวอย่างเชิงลบ สัญญาณแก้ไขได้มาจากการวิเคราะห์จากข้อมูลเองทั้งหมด
สิ่งนี้ทำให้ SOAR มีข้อได้เปรียบสำคัญสามประการ:
อัตราการใช้ข้อมูลสูงสุด: ดึงทั้ง “คำตอบมาตรฐาน” และ “สัญญาณแก้ไข” จากชุดข้อมูลเดียวกัน โดยไม่ต้องผ่านการแปลงแบบสูญเสียของ Reward Model
สัญญาณหนาแน่น: ได้รับการกำกับดูแลการแก้ไขในขั้นตอนกลางของการลดสัญญาณรบกวน แทนที่จะรอจนกว่าการสร้างจะเสร็จสิ้นจึงจะได้รับรางวัลปลายทาง
การเรียนรู้แบบ On-policy: สถานะที่เบี่ยงเบนมาจากการอนุมานของโมเดลปัจจุบันเอง การกระจายตัวของการฝึกจะปรับเปลี่ยนตามการอัปเดตของโมเดล
นี่ไม่ใช่แค่การปรับปรุงเทคนิคการฝึก แต่เป็นการเปลี่ยนแปลงกระบวนทัศน์ของโมเดลสร้าง จาก “การปฏิบัติตามคำสั่งอย่างเฉยเมย” ไปสู่ “การตรวจสอบและแก้ไขพฤติกรรมของตนเองอย่างกระตือรือร้น”

รูปที่ 2: ภาพรวมการฝึก SOAR — จำลองการเบี่ยงเบนจากสถานะบนวิถี (on-trajectory state) สร้างจุดช่วยนอกวิถีหลายระดับ คำนวณเป้าหมายการแก้ไขเชิงวิเคราะห์
ผลการวัดจริง: ชนะวิธี RL โดยไม่ต้องใช้ Reward Model
อิงจาก SD3.5-Medium ฝึกด้วยตัวอย่างภาพ-ข้อความ 286K ชิ้น โดยไม่ใช้การระบุรางวัลใดๆ SOAR มีประสิทธิภาพดีกว่า SFT ในทุกตัวชี้วัดที่รายงาน: GenEval 0.70→0.78, OCR 0.64→0.67, PickScore, HPSv2.1, Aesthetic, ImageReward บน DrawBench เพิ่มขึ้นพร้อมกัน

ตารางที่ 1: การเปรียบเทียบตัวชี้วัดระหว่าง SOAR และ SFT บน SD3.5-Medium SOAR ได้รับการปรับปรุงในทุกมิติ โดยไม่ต้องใช้ Reward Model
ในการเปรียบเทียบเฉพาะในชุดย่อยที่มี Aesthetic สูงและ CLIPScore สูง SOAR ไม่เพียงแต่แสดงการเพิ่มขึ้นแบบโมโนโทนิกที่เสถียรในตัวชี้วัดเป้าหมาย แต่ค่าสุดท้ายยังดีกว่า Flow-GRPO ที่ปรับ Reward Model โดยตรงอีกด้วย (Aesthetic 5.94 vs 5.87; ClipScore 0.300 vs 0.296) กล่าวอีกนัยหนึ่ง SOAR ที่ไม่ใช้ Reward Model ให้ผลลัพธ์ดีกว่า Flow-GRPO ที่ใช้ Reward Model ทำ RL — นี่คือผลประโยชน์จากอัตราการใช้ข้อมูลที่สูงขึ้น

รูปที่ 3: SOAR แสดงการเพิ่มขึ้นที่เสถียรในตัวชี้วัดเป้าหมาย และในที่สุดก็เหนือกว่า SFT และ Flow-GRPO โดยไม่ต้องใช้ Reward Model แต่ดีกว่าวิธี RL
SOAR + RL: ชุดการฝึกอบรมหลังกระบวนการที่เสถียรยิ่งขึ้น
SOAR ไม่ได้มีไว้เพื่อแทนที่ RL แต่เพื่อเป็นจุดเริ่มต้นที่เสถียรกว่าสำหรับ RL
ความท้าทายหลักประการหนึ่งที่การฝึกอบรมหลังกระบวนการด้วย RL เผชิญอยู่ในปัจจุบันคือ: วิถีการสร้างของโมเดลพื้นฐานยังไม่เสถียรเพียงพอ การใช้สัญญาณรางวัลขับเคลื่อนการสำรวจโดยตรง โมเดลมีแนวโน้มที่จะปรับเปลี่ยนอย่างรุนแรงในพื้นที่ที่ไม่เสถียร ส่งผลให้ตัวชี้วัดบางอย่างดีขึ้นแต่มิติอื่นๆ พังทลาย
SOAR สามารถ ดึงความเสถียรของวิถีของโมเดลขึ้นไปยังเส้นฐานที่สูงขึ้น ก่อน — ความหมายไม่พังทลาย โครงสร้างไม่บิดเบี้ยว ข้อความไม่ผิดเพี้ยน — จากนั้นจึงเชื่อมต่อกับ RL เพื่อสำรวจความชอบ โมเดลจะสามารถปรับสไตล์และปรับปรุงคุณภาพภายในช่วงที่ปลอดภัยยิ่งขึ้น
เปรียบเทียบได้ว่า: เรียนรู้ที่จะเดินให้มั่นคงก่อน จากนั้นจึงเรียนรู้ที่จะเปลี่ยนก้าวตามต้องการ — แทนที่จะปล่อยให้สัญญาณรางวัลลากวิ่งไปก่อนที่จะยืนได้มั่นคง
การแสดงภาพ

รูปที่ 4: การปรับปรุงรางวัลด้านสุนทรียศาสตร์ (Aesthetic) — SOAR ปรับปรุงความเสถียรของโครงสร้าง บรรยากาศสี และคุณภาพรายละเอียดอย่างต่อเนื่อง

รูปที่ 5: การปรับปรุงรางวัล CLIPScore — SOAR แสดงความสามารถในการปฏิบัติตามความหมายที่แข็งแกร่งขึ้นในความแม่นยำของการเรนเดอร์ข้อความและความเที่ยงตรงขององค์ประกอบ

รูปที่ 6: การสร้าง WebUI/การออกแบบ — SOAR แสดงให้เห็นถึงความแม่นยำในการจัดวางเลย์เอาต์ ลำดับชั้นของข้อความ และความสอดคล้องของโครงสร้างภาพ
บทสรุป
SOAR มอบเส้นทางใหม่สำหรับการฝึกอบรมหลังกระบวนการของโมเดล Diffusion: ไม่พึ่งพา Reward Model ขุดสัญญาณแก้ไขระดับวิถีจากข้อมูลโดยตรง ทำให้โมเดลเรียนรู้ที่จะ สะท้อนตนเองและแก้ไขข้อผิดพลาดในระหว่างกระบวนการสร้าง
เมื่อคุณภาพข้อมูลสูงพอแล้ว สิ่งที่กำหนดขีดจำกัดของโมเดลไม่ใช่ตัวข้อมูลอีกต่อไป แต่เป็นวิธีการฝึกที่สามารถดึงสัญญาณที่มีประสิทธิภาพจากข้อมูลได้มากเพียงใด
SFT ใช้เพียง “คำตอบมาตรฐาน” RL บีบอัดข้อมูลเป็นรางวัลที่เบาบาง ในขณะที่ SOAR บีบคุณค่าในการแก้ไขของข้อมูลทุกชิ้นในระดับวิถี โดยตรง การเปลี่ยนแปลงความสามารถนี้จาก “การเลียนแบบอย่างเฉยเมย” ไปสู่ “การแก้ไขตนเองอย่างกระตือรือร้น” คาดว่าจะกลายเป็นโครงสร้างพื้นฐานที่สำคัญสำหรับโมเดลสร้างภาพ วิดีโอ 3D และโมเดลสร้างโลกในความหมายที่กว้างขึ้น เพื่อก้าวไปสู่ความชาญฉลาดในขั้นต่อไป
ปัจจุบัน เอกสารและโค้ดที่เกี่ยวข้องกับ HY-SOAR ได้เปิดเผยต่อสาธารณะแล้ว ยินดีต้อนรับนักวิจัยและนักพัฒนาในการทดสอบ ทำซ้ำ และสำรวจต่อไป
หน้าโครงการ: https://hy-soar.github.io
รายงานทางเทคนิค: https://arxiv.org/abs/2604.12617
GitHub: https://github.com/Tencent-Hunyuan/HY-SOAR
Huggingface: https://huggingface.co/papers/2604.12617
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/31687
