Tencent Hunyuan เปิดตัว HY-SOAR: สอนโมเดล Diffusion ให้รู้จักสะท้อนตนเอง โดยไม่มีโมเดลรางวัลที่เหนือกว่าวิธี RL

1 day ago • วิศวกรรมโมเดลขนาดใหญ่ • 32 views

Tencent Hunyuan เปิดตัว HY-SOAR: สอนโมเดล Diffusion ให้รู้จักสะท้อนตนเอง ดีกว่าวิธี RL โดยไม่ต้องใช้ Reward Model

เมื่อเร็วๆ นี้ ทีม Tencent Hunyuan ได้เสนอ HY-SOAR (Self-Correction for Optimal Alignment and Refinement) ซึ่งเป็นวิธีการฝึกอบรมหลังกระบวนการ (post-training) ที่ขับเคลื่อนด้วยข้อมูล สำหรับโมเดล Diffusion และโมเดล Flow Matching

SOAR ไม่พึ่งพา Reward Model ไม่ต้องใช้การระบุความชอบ (preference labeling) ไม่ต้องใช้ตัวอย่างเชิงลบ (negative samples) แต่ขุดสัญญาณแก้ไขในระดับวิถี (trajectory-level correction signals) โดยตรงจากข้อมูลการฝึก ทำให้โมเดลเรียนรู้ที่จะสะท้อนตนเองและแก้ไขข้อผิดพลาดในระหว่างกระบวนการลดสัญญาณรบกวน (denoising) ซึ่งเป็นเส้นทางใหม่สำหรับการฝึกอบรมหลังกระบวนการของโมเดลสร้างภาพ

อุปสรรคหลักของการฝึกอบรมหลังกระบวนการ: ไม่ใช่ข้อมูลไม่ดีพอ แต่ใช้ข้อมูลไม่เต็มที่

เส้นทางหลักสองเส้นทางของการฝึกอบรมหลังกระบวนการของโมเดล Diffusion ได้แก่ SFT และ RL ต่างก็มีจุดอ่อนที่ชัดเจนในการใช้ข้อมูล

SFT เรียนรู้เฉพาะ “คำตอบมาตรฐาน” ไม่สามารถ “แก้ไขข้อผิดพลาด”:
SFT ทำการกำกับดูแล (supervision) โดยตรงบนข้อมูลคุณภาพสูง แต่มันสอนให้โมเดลจัดการเฉพาะ “วิถีในอุดมคติ” ซึ่งเป็นสถานะกลางมาตรฐานที่ได้จากการเติมสัญญาณรบกวนไปข้างหน้าบนข้อมูลจริง
ปัญหาคือ ในระหว่างการอนุมาน โมเดลจะเดินตามวิถีของตัวเอง เมื่อเกิดการเบี่ยงเบนในขั้นตอนแรกๆ ของการลดสัญญาณรบกวน สถานะต่อๆ ไปจะเข้าสู่พื้นที่ที่ไม่เคยเห็นมาก่อนในการฝึก ข้อมูลที่มีข้อมูลเกี่ยวกับ “โมเดลอาจจะเบี่ยงเบนไปอย่างไร และจะแก้ไขอย่างไร” นั้น SFT ไม่ได้นำมาใช้เลย

RL ก็เดินไปอีกทางที่อ้อมค้อม โดย “บีบอัดและสูญเสียข้อมูล”:
ขั้นแรก แปลงข้อมูลคุณภาพสูงเป็นคะแนนปลายทางผ่าน Reward Model จากนั้นใช้สัญญาณที่เบาบางนี้เพื่อปรับวิถีการสร้างทั้งหมด โดยพื้นฐานแล้วนี่คือการบีบอัดแบบสูญเสีย (lossy compression) ข้อมูลระดับวิถีที่หลากหลายถูกบีบอัดเป็นรางวัลสเกลาร์เดียว ทำให้สัญญาณจำนวนมากที่สามารถใช้แก้ไขขั้นตอนกลางสูญหายไปในระหว่างการแปลง ที่แย่กว่านั้น ความเบาบางของสัญญาณรางวัลยังนำไปสู่ปัญหา Credit Assignment และ Reward Hacking

โมเดลระดับแนวหน้า = คุณภาพข้อมูล × อัตราการใช้ข้อมูล เมื่อคุณภาพข้อมูลสูงพอแล้ว อุปสรรคก็คืออัตราการใช้ข้อมูล RL มีส่วนลดในเรื่องอัตราการใช้ข้อมูล เป้าหมายของ SOAR คือการนำส่วนลดนั้นกลับคืนมา

Tencent Hunyuan เปิดตัว HY-SOAR: สอนโมเดล Diffusion ให้รู้จักสะท้อนตนเอง โดยไม่มีโมเดลรางวัลที่เหนือกว่าวิธี RL

รูปที่ 1: SFT ฝึกเฉพาะบนวิถีในอุดมคติ สูญเสียข้อมูลการแก้ไขในข้อมูล; RL บีบอัดข้อมูลเป็นรางวัลปลายทางที่เบาบาง ทำให้อัตราการใช้ข้อมูลถูกจำกัด; SOAR ดึงสัญญาณแก้ไขวิถีที่หนาแน่นจากข้อมูลโดยตรง

SOAR: ทำให้โมเดลสร้างมีความสามารถในการสะท้อนตนเอง

เส้นทางวิวัฒนาการของ Large Language Models คือ: Pre-training → SFT → RLHF → การสะท้อนตนเอง (self-correction ที่เป็นตัวแทนโดย o1/o3) โมเดลสร้างภาพกำลังเดินตามเส้นทางเดียวกัน และ SOAR คือก้าวสำคัญบนเส้นทางนี้

SOAR ทำให้โมเดล Diffusion มีความสามารถในการ “ตรวจสอบและแก้ไขพฤติกรรมของตนเองในระหว่างกระบวนการสร้าง” เป็นครั้งแรก ตรรกะการทำงานของมันชัดเจน:

ดำเนินการอนุมานไปข้างหน้าแบบไม่มีเกรเดียนต์ (gradient-free) หนึ่งขั้นตอนกับตัวอย่างจริง เพื่อจำลองการเบี่ยงเบนที่โมเดลอาจสร้างขึ้นเอง
เติมสัญญาณรบกวนเพิ่มเติมให้กับสถานะที่เบี่ยงเบน เพื่อสร้างจุดช่วยฝึกนอกวิถี (off-trajectory auxiliary training points)
ใช้ตัวอย่างดั้งเดิมเป็นจุดยึด (anchor) คำนวณเป้าหมายการแก้ไขเชิงวิเคราะห์ (analytical correction target)

กระบวนการทั้งหมดไม่จำเป็นต้องใช้ Reward Model ไม่ต้องใช้การระบุความชอบ ไม่ต้องใช้ตัวอย่างเชิงลบ สัญญาณแก้ไขได้มาจากการวิเคราะห์จากข้อมูลเองทั้งหมด

สิ่งนี้ทำให้ SOAR มีข้อได้เปรียบสำคัญสามประการ:

อัตราการใช้ข้อมูลสูงสุด: ดึงทั้ง “คำตอบมาตรฐาน” และ “สัญญาณแก้ไข” จากชุดข้อมูลเดียวกัน โดยไม่ต้องผ่านการแปลงแบบสูญเสียของ Reward Model

สัญญาณหนาแน่น: ได้รับการกำกับดูแลการแก้ไขในขั้นตอนกลางของการลดสัญญาณรบกวน แทนที่จะรอจนกว่าการสร้างจะเสร็จสิ้นจึงจะได้รับรางวัลปลายทาง

การเรียนรู้แบบ On-policy: สถานะที่เบี่ยงเบนมาจากการอนุมานของโมเดลปัจจุบันเอง การกระจายตัวของการฝึกจะปรับเปลี่ยนตามการอัปเดตของโมเดล

นี่ไม่ใช่แค่การปรับปรุงเทคนิคการฝึก แต่เป็นการเปลี่ยนแปลงกระบวนทัศน์ของโมเดลสร้าง จาก “การปฏิบัติตามคำสั่งอย่างเฉยเมย” ไปสู่ “การตรวจสอบและแก้ไขพฤติกรรมของตนเองอย่างกระตือรือร้น”

รูปที่ 2: ภาพรวมการฝึก SOAR — จำลองการเบี่ยงเบนจากสถานะบนวิถี (on-trajectory state) สร้างจุดช่วยนอกวิถีหลายระดับ คำนวณเป้าหมายการแก้ไขเชิงวิเคราะห์

ผลการวัดจริง: ชนะวิธี RL โดยไม่ต้องใช้ Reward Model

อิงจาก SD3.5-Medium ฝึกด้วยตัวอย่างภาพ-ข้อความ 286K ชิ้น โดยไม่ใช้การระบุรางวัลใดๆ SOAR มีประสิทธิภาพดีกว่า SFT ในทุกตัวชี้วัดที่รายงาน: GenEval 0.70→0.78, OCR 0.64→0.67, PickScore, HPSv2.1, Aesthetic, ImageReward บน DrawBench เพิ่มขึ้นพร้อมกัน

ตารางที่ 1: การเปรียบเทียบตัวชี้วัดระหว่าง SOAR และ SFT บน SD3.5-Medium SOAR ได้รับการปรับปรุงในทุกมิติ โดยไม่ต้องใช้ Reward Model

ในการเปรียบเทียบเฉพาะในชุดย่อยที่มี Aesthetic สูงและ CLIPScore สูง SOAR ไม่เพียงแต่แสดงการเพิ่มขึ้นแบบโมโนโทนิกที่เสถียรในตัวชี้วัดเป้าหมาย แต่ค่าสุดท้ายยังดีกว่า Flow-GRPO ที่ปรับ Reward Model โดยตรงอีกด้วย (Aesthetic 5.94 vs 5.87; ClipScore 0.300 vs 0.296) กล่าวอีกนัยหนึ่ง SOAR ที่ไม่ใช้ Reward Model ให้ผลลัพธ์ดีกว่า Flow-GRPO ที่ใช้ Reward Model ทำ RL — นี่คือผลประโยชน์จากอัตราการใช้ข้อมูลที่สูงขึ้น

รูปที่ 3: SOAR แสดงการเพิ่มขึ้นที่เสถียรในตัวชี้วัดเป้าหมาย และในที่สุดก็เหนือกว่า SFT และ Flow-GRPO โดยไม่ต้องใช้ Reward Model แต่ดีกว่าวิธี RL

SOAR + RL: ชุดการฝึกอบรมหลังกระบวนการที่เสถียรยิ่งขึ้น

SOAR ไม่ได้มีไว้เพื่อแทนที่ RL แต่เพื่อเป็นจุดเริ่มต้นที่เสถียรกว่าสำหรับ RL

ความท้าทายหลักประการหนึ่งที่การฝึกอบรมหลังกระบวนการด้วย RL เผชิญอยู่ในปัจจุบันคือ: วิถีการสร้างของโมเดลพื้นฐานยังไม่เสถียรเพียงพอ การใช้สัญญาณรางวัลขับเคลื่อนการสำรวจโดยตรง โมเดลมีแนวโน้มที่จะปรับเปลี่ยนอย่างรุนแรงในพื้นที่ที่ไม่เสถียร ส่งผลให้ตัวชี้วัดบางอย่างดีขึ้นแต่มิติอื่นๆ พังทลาย

SOAR สามารถ ดึงความเสถียรของวิถีของโมเดลขึ้นไปยังเส้นฐานที่สูงขึ้น ก่อน — ความหมายไม่พังทลาย โครงสร้างไม่บิดเบี้ยว ข้อความไม่ผิดเพี้ยน — จากนั้นจึงเชื่อมต่อกับ RL เพื่อสำรวจความชอบ โมเดลจะสามารถปรับสไตล์และปรับปรุงคุณภาพภายในช่วงที่ปลอดภัยยิ่งขึ้น

เปรียบเทียบได้ว่า: เรียนรู้ที่จะเดินให้มั่นคงก่อน จากนั้นจึงเรียนรู้ที่จะเปลี่ยนก้าวตามต้องการ — แทนที่จะปล่อยให้สัญญาณรางวัลลากวิ่งไปก่อนที่จะยืนได้มั่นคง

การแสดงภาพ

รูปที่ 4: การปรับปรุงรางวัลด้านสุนทรียศาสตร์ (Aesthetic) — SOAR ปรับปรุงความเสถียรของโครงสร้าง บรรยากาศสี และคุณภาพรายละเอียดอย่างต่อเนื่อง

รูปที่ 5: การปรับปรุงรางวัล CLIPScore — SOAR แสดงความสามารถในการปฏิบัติตามความหมายที่แข็งแกร่งขึ้นในความแม่นยำของการเรนเดอร์ข้อความและความเที่ยงตรงขององค์ประกอบ

รูปที่ 6: การสร้าง WebUI/การออกแบบ — SOAR แสดงให้เห็นถึงความแม่นยำในการจัดวางเลย์เอาต์ ลำดับชั้นของข้อความ และความสอดคล้องของโครงสร้างภาพ

บทสรุป

SOAR มอบเส้นทางใหม่สำหรับการฝึกอบรมหลังกระบวนการของโมเดล Diffusion: ไม่พึ่งพา Reward Model ขุดสัญญาณแก้ไขระดับวิถีจากข้อมูลโดยตรง ทำให้โมเดลเรียนรู้ที่จะ สะท้อนตนเองและแก้ไขข้อผิดพลาดในระหว่างกระบวนการสร้าง

เมื่อคุณภาพข้อมูลสูงพอแล้ว สิ่งที่กำหนดขีดจำกัดของโมเดลไม่ใช่ตัวข้อมูลอีกต่อไป แต่เป็นวิธีการฝึกที่สามารถดึงสัญญาณที่มีประสิทธิภาพจากข้อมูลได้มากเพียงใด

SFT ใช้เพียง “คำตอบมาตรฐาน” RL บีบอัดข้อมูลเป็นรางวัลที่เบาบาง ในขณะที่ SOAR บีบคุณค่าในการแก้ไขของข้อมูลทุกชิ้นในระดับวิถี โดยตรง การเปลี่ยนแปลงความสามารถนี้จาก “การเลียนแบบอย่างเฉยเมย” ไปสู่ “การแก้ไขตนเองอย่างกระตือรือร้น” คาดว่าจะกลายเป็นโครงสร้างพื้นฐานที่สำคัญสำหรับโมเดลสร้างภาพ วิดีโอ 3D และโมเดลสร้างโลกในความหมายที่กว้างขึ้น เพื่อก้าวไปสู่ความชาญฉลาดในขั้นต่อไป

ปัจจุบัน เอกสารและโค้ดที่เกี่ยวข้องกับ HY-SOAR ได้เปิดเผยต่อสาธารณะแล้ว ยินดีต้อนรับนักวิจัยและนักพัฒนาในการทดสอบ ทำซ้ำ และสำรวจต่อไป

หน้าโครงการ: https://hy-soar.github.io
รายงานทางเทคนิค: https://arxiv.org/abs/2604.12617
GitHub: https://github.com/Tencent-Hunyuan/HY-SOAR
Huggingface: https://huggingface.co/papers/2604.12617

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/31687

Like (0)

0 0

โมเดลโลกแบบมีกายภาพสัญชาติจีน FlowWAM ขึ้นอันดับหนึ่งใน WorldArena ด้วยความสามารถในการเข้าใจพื้นที่ที่เหนือกว่า

Previous 1 day ago

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

Next 1 day ago

วิศวกรรมโมเดลขนาดใหญ่

DeepSeek Engram ความลับของความทรงจำถูกเปิดเผย: ความทรงจำภายนอกคือ “ภาระเทียม” การปรับโครงสร้างคือกุญแจสู่ประสิทธิภาพ

คำสำคัญ: DeepSeek Engram, LLM, ความจำภายนอก, การทำให้เป็นปกติ, เส้นทางเรซิดวล ในการสร้างสรรค์สถาปัตยกรรม LLM, DeepSeek Engram ยึดถือ “การแยกการให้เหตุผลและความรู้” เป็น…

2026年4月13日
83000
วิศวกรรมโมเดลขนาดใหญ่

กระบวนทัศน์ใหม่ของการจัดการความรู้ LLM: จากแบบสอบถามชั่วคราวสู่การสร้างแบบวิกิที่เติบโตแบบทบต้น

กระบวนทัศน์ใหม่ในการจัดการความรู้ด้วย LLM: จากแบบสืบค้นชั่วคราวสู่การสร้างแบบ Wiki ที่เติบโตแบบทบต้น (ตอนที่ 1) เมื่อเร็วๆ นี้ Andrej Karpathy ได้แบ่งปันวิธีการใหม่ในการใช้โมเดลภาษ…

2026年4月7日
100000
วิศวกรรมโมเดลขนาดใหญ่

การปฏิวัติ AI ในการเขียนโปรแกรม: เมื่อต้นทุนโค้ดเป็นศูนย์ 8 รูปแบบปรับโครงสร้างเวิร์กโฟลว์ของวิศวกร

เมื่อต้นทุนการเขียนโค้ดเป็นศูนย์: 8 รูปแบบปรับโฉมเวิร์กโฟลว์ของวิศวกร Simon Willison นักพัฒนาชื่อดังจากซิลิคอนวัลเลย์ ผู้ก่อตั้ง Datasette ได้เผยแพร่คู่มือปฏิบัติสำหรับวิศวกรมืออาช…

2026年3月16日
193000
วิศวกรรมโมเดลขนาดใหญ่

北航เปิดตัว Code2Bench: การประเมินแบบไดนามิกสองส่วนต่อขยาย สิ้นสุดภาพลวงตาคะแนนสูงของโมเดลรหัสขนาดใหญ่

ในการแข่งขันเพื่อวัดความสามารถในการสร้างโค้ดของโมเดลภาษาขนาดใหญ่ (LLM) ปัญหาที่รุนแรงขึ้นเรื่อยๆ กำลังปรากฏให้เห็น: เมื่อโมเดลต่างทำคะแนนได้เกือบเต็มในเกณฑ์มาตรฐานคลาสสิกอย่าง Huma…

2026年2月21日
281000
วิศวกรรมโมเดลขนาดใหญ่

LLM ทำไมถึง ‘เงียบ’ เมื่ออยู่ต่อหน้า NPU ของ Ascend? AscendCraft สร้างสะพานด้วย DSL ทำให้อัตราความสำเร็จของเคอร์เนลการสร้างพุ่งสูงถึง 98.1%

LLM ต่อหน้า NPU ของ Ascend ทำไมถึง “พูดไม่ออก”? AscendCraft ใช้ DSL สร้างสะพานเชื่อม ทำให้อัตราความสำเร็จในการสร้างเคอร์เนลพุ่งสูงถึง 98.1% (1/4) ในวงการชิป AI การเขียน…

2026年3月22日
192000

Tencent Hunyuan เปิดตัว HY-SOAR: สอนโมเดล Diffusion ให้รู้จักสะท้อนตนเอง โดยไม่มีโมเดลรางวัลที่เหนือกว่าวิธี RL

Tencent Hunyuan เปิดตัว HY-SOAR: สอนโมเดล Diffusion ให้รู้จักสะท้อนตนเอง ดีกว่าวิธี RL โดยไม่ต้องใช้ Reward Model

อุปสรรคหลักของการฝึกอบรมหลังกระบวนการ: ไม่ใช่ข้อมูลไม่ดีพอ แต่ใช้ข้อมูลไม่เต็มที่

SOAR: ทำให้โมเดลสร้างมีความสามารถในการสะท้อนตนเอง

ผลการวัดจริง: ชนะวิธี RL โดยไม่ต้องใช้ Reward Model

ตารางที่ 1: การเปรียบเทียบตัวชี้วัดระหว่าง SOAR และ SFT บน SD3.5-Medium SOAR ได้รับการปรับปรุงในทุกมิติ โดยไม่ต้องใช้ Reward Model

SOAR + RL: ชุดการฝึกอบรมหลังกระบวนการที่เสถียรยิ่งขึ้น

การแสดงภาพ

บทสรุป

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

กระบวนทัศน์ใหม่ของการจัดการความรู้ LLM: จากแบบสอบถามชั่วคราวสู่การสร้างแบบวิกิที่เติบโตแบบทบต้น

การปฏิวัติ AI ในการเขียนโปรแกรม: เมื่อต้นทุนโค้ดเป็นศูนย์ 8 รูปแบบปรับโครงสร้างเวิร์กโฟลว์ของวิศวกร

北航เปิดตัว Code2Bench: การประเมินแบบไดนามิกสองส่วนต่อขยาย สิ้นสุดภาพลวงตาคะแนนสูงของโมเดลรหัสขนาดใหญ่