“รอยแยกที่ซ่อนเร้น” ที่ถูกมองข้าม: SFT ทำอะไรกันแน่?
มาดูข้อมูลที่น่าสนใจชุดหนึ่งกันก่อน (อิงจากค่าเฉลี่ยความแม่นยำของเกณฑ์มาตรฐานมัลติโมดัลหลัก 7 รายการ):
| ระยะ | Qwen3-VL-4B | Qwen3-VL-8B |
|---|---|---|
| โมเดล Instruct ดั้งเดิม | 59.7% | 63.3% |
| หลัง SFT | 56.8% (-3.0) | 58.1% (-5.2) |
| SFT → GRPO | 61.8% | 63.3% |
จะเห็นได้ว่า หลังจาก SFT ประสิทธิภาพของโมเดลกลับลดลงไม่เพิ่มขึ้น โมเดลขนาด 8B แสดงให้เห็นอย่างชัดเจนยิ่งขึ้น: SFT ทำให้ความแม่นยำลดลง 5.2 จุดเปอร์เซ็นต์ ในขณะที่การฝึกด้วย Reinforcement Learning (RL) ในภายหลังนั้นแทบจะดึงโมเดลกลับมาที่ระดับพื้นฐานเท่านั้น (63.3%→58.1%→63.3%)
นั่นหมายความว่า RL ของคุณอาจกำลัง “ชดใช้หนี้” อยู่ตลอด ไม่ใช่ “การพัฒนา” อย่างแท้จริง
นี่ไม่ใช่ปรากฏการณ์ที่เกิดขึ้นเดี่ยวๆ ในโมเดล Instruct ที่แข็งแกร่งในปัจจุบัน (เช่น ซีรีส์ Qwen3-VL) ตราบใดที่ข้อมูล SFT นำเสนอการกระจายใหม่ที่ไม่สอดคล้องกับโมเดลพื้นฐาน (ที่พบบ่อยที่สุดคือข้อมูลกลั่นจาก GPT/Gemini) ก็แทบจะสังเกตเห็นการลดลงของประสิทธิภาพที่คล้ายคลึงกันได้เสมอ
สาเหตุนั้นตรงไปตรงมา: โมเดลพื้นฐานประเภทนี้ผ่านการฝึกภายหลังขนาดใหญ่และละเอียดแล้ว ความสามารถของมันจึงอยู่ในระดับสูงที่ค่อนข้างคงที่อยู่แล้ว SFT บังคับให้โมเดลเลียนแบบการกระจายใหม่ ผลลัพธ์คือการใช้การกระจายที่ “แคบ” กว่าไปครอบคลุมความสามารถที่ “กว้าง” กว่า ทำให้ความสามารถเก่าถูกชะล้างออกไป และความสามารถใหม่ก็ไม่ได้เรียนรู้อย่างถ่องแท้
กล่าวอีกนัยหนึ่ง ยิ่งโมเดลแข็งแกร่งและใกล้เคียงกับระดับการใช้งานจริงมากเท่าไร การเปลี่ยนแปลงการกระจายที่ SFT นำเข้ามาก็ยิ่งกลายเป็น “หลุมพราง” ที่เลี่ยงไม่ได้ก่อน RL มากขึ้นเท่านั้น นี่คือเหตุผลหลักที่ PRISM ต้องมีอยู่
แก่นของปัญหานี้คือ “การเปลี่ยนแปลงการกระจาย” (Distributional Drift) ที่ถูกพูดถึงซ้ำแล้วซ้ำเล่าในการฝึกภายหลัง แต่ในสถานการณ์มัลติโมดัล มันแสดงออกในรูปแบบที่ซ่อนเร้นและรับมือได้ยากยิ่งขึ้น
รากเหง้าของปัญหา: อคติสองประเภทที่ SFT นำเข้ามา
ในสถานการณ์มัลติโมดัล SFT จะนำอคติสองประเภทที่มักถูกมองข้ามเข้ามา:
อคติที่หนึ่ง: การเลียนแบบผิวเผิน – การสูญเสียระดับ Token ทำให้กระบวนการและผลลัพธ์เท่าเทียมกัน
เป้าหมายการปรับให้เหมาะสมของ SFT คือการให้โมเดลเลียนแบบร่องรอยการสาธิตภายใต้การสูญเสียระดับ Token ที่สม่ำเสมอ มันไม่แยกแยะระหว่าง “กระบวนการ” และ “ผลลัพธ์”: สำหรับโมเดลแล้ว ขั้นตอนการให้เหตุผลที่ถูกต้องกับคำพูดเทมเพลตที่เป็นทางการนั้นมีน้ำหนักเท่ากันทุกประการ
ผลลัพธ์สุดท้ายคือ โมเดลเรียนรู้ที่จะ “ดูเหมือน” คำตอบที่ถูกต้อง ไม่ใช่ “คิด” หาคำตอบที่ถูกต้อง มันเรียนรู้รูปแบบผิวเผิน ไม่ใช่ความสามารถในการให้เหตุผลที่แท้จริง
อคติที่สอง: การเปลี่ยนแปลงการรับรู้และการเปลี่ยนแปลงการให้เหตุผลถูกปะปนกันในฟังก์ชันการสูญเสียเดียวกัน
นี่คือปัญหาที่เฉพาะเจาะจงในสถานการณ์มัลติโมดัล ต่างจากโมเดลข้อความล้วน การเปลี่ยนแปลงของโมเดลมัลติโมดัลไม่ได้มีเพียงประเภทเดียว แต่เป็นรูปแบบความล้มเหลวที่แตกต่างกันสองแบบที่เกิดขึ้นพร้อมกัน:
* การเปลี่ยนแปลงการรับรู้: การระบุตำแหน่งทางภาพผิดพลาด โมเดล “มองผิด”
* การเปลี่ยนแปลงการให้เหตุผล: กระบวนการ推导เชิงตรรกะล้มเหลว โมเดล “คิดผิดทาง”
สาเหตุและวิธีการแก้ไขของการเปลี่ยนแปลงทั้งสองประเภทนี้แตกต่างกัน แต่ SFT ใช้ฟังก์ชันการสูญเสีย Token เดียวกันในการ拟合ทั้งสองอย่าง เมื่อเข้าสู่ระยะ RL โมเดลก็เกิดการเปลี่ยนแปลงทั้งในด้านการรับรู้และการให้เหตุผลพร้อมกัน กลายเป็นโมเดลที่ “ทั้งมองไม่ชัด และคิดไม่ถูก”
ทำไมอัลกอริทึม RL ที่มีอยู่จึงไร้ทางสู้?
จาก GRPO ถึง DAPO และ GSPO อัลกอริทึม RL พัฒนาขึ้นอย่างต่อเนื่องจริง แต่มันแก้ไข ปัญหาภายในระยะ RL: ประสิทธิภาพการสุ่มตัวอย่าง ความแปรปรวนของเกรเดียนต์ การล่มสลายของนโยบาย ไม่มีอัลกอริทึม RL ใดที่จะย้อนกลับไปแก้ไขการเปลี่ยนแปลงการกระจายที่ SFT ทิ้งไว้
เปรียบเทียบแบบไม่ค่อยเหมาะสม: เหมือนกับการวิ่ง 100 เมตร SFT ไม่เพียงแต่ไม่ทำให้คุณก้าวหน้า แต่ยังผลักคุณถอยหลังไป 50 เมตร อัลกอริทึม RL ที่มีอยู่ทั้งหมดศึกษาว่าจะวิ่งให้เร็วขึ้นได้อย่างไร แต่จุดเริ่มต้นของคุณยังอยู่ในหลุม และสิ่งที่ PRISM จะทำ คือการเพิ่มขั้นตอนนี้ระหว่าง SFT และ RL: ไม่เพียงแต่ดึงคุณกลับไปที่เส้นเริ่มต้น แต่ยังผลักคุณไปข้างหน้าต่ออีกเล็กน้อย เพื่อให้ RL ต้องวิ่งแค่ 50 เมตรก็ถึงเส้นชัย
โซลูชันหลักของ PRISM: สายการผลิตสามระยะ
PRISM ทำลายกระบวนทัศน์สองระยะแบบดั้งเดิม และเสนอสายการผลิตสามระยะ SFT → การจัดแนวการกระจาย (PRISM) → RLVR นวัตกรรมสำคัญอยู่ที่ ระยะการจัดแนวการกระจาย ที่อยู่ตรงกลาง
ตัวแยกแยะผู้เชี่ยวชาญแบบผสม
การเปลี่ยนแปลงการรับรู้และการเปลี่ยนแปลงการให้เหตุผลเป็นอคติที่มีสาเหตุต่างกัน จำเป็นต้องจัดการแยกกัน ด้วยเหตุนี้ PRISM จึงออกแบบตัวแยกแยะผู้เชี่ยวชาญแบบผสม ซึ่งประกอบด้วยผู้เชี่ยวชาญเฉพาะทางสองคน:
* ผู้เชี่ยวชาญด้านการรับรู้ D_v: ประเมินคำอธิบายภาพโดยเฉพาะ วัดว่าเอาต์พุตของโมเดลซื่อสัตย์ต่อเนื้อหาของภาพหรือไม่ ใช้แก้ไขการเปลี่ยนแปลงการรับรู้
* ผู้เชี่ยวชาญด้านการให้เหตุผล D_r: ประเมินร่องรอยการให้เหตุผลโดยเฉพาะ วัดว่าการ推导เชิงตรรกะสอดคล้องและมีประสิทธิภาพหรือไม่ ใช้แก้ไขการเปลี่ยนแปลงการให้เหตุผล
คะแนนการแยกแยะสุดท้ายคือการรวมแบบถ่วงน้ำหนักของทั้งสอง:
r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)
ข้อดีของการออกแบบนี้คือการให้ สัญญาณแก้ไขที่แยกออกจากกัน หลีกเลี่ยงการยัดเยียดรูปแบบความผิดพลาดที่แตกต่างกันโดยสิ้นเชิงสองแบบลงในสเกลาร์เดียว ซึ่งจะทำให้สัญญาณเกรเดียนต์มีเสียงรบกวน

การกลั่นแบบกล่องดำ: ไม่จำเป็นต้องใช้ Logits ของโมเดลครู
อีกจุดที่สง่างามของ PRISM คือมันเป็น กล่องดำ วิธีการกลั่นหลายวิธีจำเป็นต้องเข้าถึง Logits (การกระจายความน่าจะเป็นภายใน) ของโมเดลครู ซึ่งหมายความว่าคุณต้องมีน้ำหนักทั้งหมดของโมเดลครู แต่ในสถานการณ์จริง โมเดลที่แข็งแกร่งที่สุดมักจะให้บริการผ่าน API เท่านั้น คุณเห็นได้เฉพาะเอาต์พุต ไม่สามารถมองเห็นสถานะภายในได้
PRISM ทำงานทั้งหมดใน ระดับการตอบสนอง: เก็บรวบรวมเอาต์พุตคุณภาพสูงจากโมเดลที่แข็งแกร่ง (เช่น Gemini 3 Flash) เป็นตัวอย่างบวก และสุ่มตัวอย่างจากนโยบายปัจจุบันเป็นตัวอย่างลบ จากนั้นจัดแนวการกระจายผ่านเกมการต่อต้าน ตราบใดที่สามารถเรียก API ได้ ก็สามารถใช้ PRISM ได้
การตัดสินใจออกแบบที่สำคัญ: การลบ Regularization KL
การฝึก RL แบบดั้งเดิมมักจะเพิ่มข้อจำกัดความแตกต่างของ KL เพื่อป้องกันไม่ให้นโยบายเบี่ยงเบนไปจากโมเดลเริ่มต้นมากเกินไป แต่ PRISM ลบข้อจำกัดนี้ อย่างมีสติ เหตุผลนั้นง่าย: จุดประสงค์ของระยะการจัดแนวคือการแก้ไขการเปลี่ยนแปลงการกระจายที่ SFT นำเข้ามา การเพิ่มข้อจำกัด KL ที่ดึงนโยบายกลับไปสู่การกระจาย SFT นั้นขัดแย้งกับเป้าหมายนี้โดยเนื้อแท้
วิวัฒนาการการกระจาย: การจัดแนวดึงโมเดลกลับไปยังจุดเริ่มต้นที่ดีขึ้นจริง
ภาพด้านล่างแสดงวิวัฒนาการการกระจายอย่าง直观 ตั้งแต่ Base ถึง Post-SFT และ Post-Alignment ไม่ว่าจะเป็นการกระจายของจำนวนขั้นตอนการให้เหตุผลหรือจำนวนรายการคำอธิบายภาพ ต่างก็ค่อยๆ เข้าใกล้ข้อมูลควบคุม

จะเห็นได้อย่างชัดเจน: มีความแตกต่างอย่างมีนัยสำคัญระหว่าง Post-SFT (เส้นสีน้ำเงิน) และ Supervision (เส้นสีดำ) ในขณะที่ Post-Alignment (เส้นสีส้ม) ลดช่องว่างนี้ลงอย่างมาก และการปรับปรุงนี้ยังคงอยู่ต่อไปในระยะ Post-RLVR (เส้นสีเขียว)
การตรวจสอบการทดลอง
บนโมเดล Qwen3-VL ขนาด 4B และ 8B PRISM จับคู่กับอัลกอริทึม RL หลัก GRPO/DAPO/GSPO สามแบบ และตรวจสอบประสิทธิภาพอย่างครอบคลุมบน เกณฑ์มาตรฐานการให้เหตุผลทางคณิตศาสตร์ 4 รายการ (MathVista, MathVerse, MathVision, WeMath) และ เกณฑ์มาตรฐานมัลติโมดัลทั่วไป 3 รายการ (MMMU, MMMU-Pro, HallusionBench)
ตารางด้านล่างคือผลลัพธ์หลักของ Table 1 ในเอกสาร (แถวสีเทาคือ PRISM):

จากตารางหลักสามารถอ่านสัญญาณที่น่าสนใจหลายประการ:
1. ยิ่งโมเดลแข็งแกร่ง PRISM ยิ่งให้ประโยชน์มากขึ้น: โมเดล 8B ได้รับการปรับปรุงเฉลี่ย +6.0 ในขณะที่โมเดล 4B ได้ +4.4 ฐานที่แข็งแกร่งกว่าถูก SFT “ทำร้าย” มากกว่า จึงได้รับประโยชน์จากการจัดแนวมากขึ้น
2. PRISM ได้คะแนนดีที่สุดภายใต้ฐานเดียวกันในเกณฑ์ย่อยส่วนใหญ่ (ตัวหนาในตาราง) ครอบคลุมทั้งงานการให้เหตุผลทางคณิตศาสตร์และความเข้าใจภาพทั่วไป ซึ่งหมายความว่าการจัดแนวไม่ได้นำมาซึ่งการปรับปรุงเฉพาะด้านใดด้านหนึ่ง แต่เป็นการ ปรับเทียบระดับโลกในระดับการกระจาย
การทดสอบการตัดทอน: ทุกขั้นตอนขาดไม่ได้

จากตารางการตัดทอน (Table 2 ในเอกสาร) สามารถอ่านการมีส่วนร่วมของแต่ละองค์ประกอบได้อย่าง直观:
1. การลบระยะ SFT ทำให้ประสิทธิภาพลดลง 16.8 จุดเปอร์เซ็นต์ทันที แสดงให้เห็นว่า SFT ยังคงไม่สามารถถูกแทนที่ได้ในฐานะ “การเริ่มต้นเย็น” PRISM ไม่ได้มีไว้เพื่อแทนที่ SFT แต่เพื่อซ่อมแซมผลข้างเคียงที่มันนำมา
2. การลบระยะการจัดแนวทำให้ประสิทธิภาพลดลง 4.4 จุดเปอร์เซ็นต์ ซึ่งสอดคล้องกับขนาดการปรับปรุงในตารางหลักของ 4B อย่างสมบูรณ์ เป็นหลักฐานโดยตรงของผลการจัดแนวการกระจาย
3. การใช้ตัวแยกแยะ 4B ตัวเดียวแทน MoE ทำให้ประสิทธิภาพลดลง 3.4 จุดเปอร์เซ็นต์; การใช้เฉพาะตัวแยกแยะข้อความทำให้ประสิทธิภาพลดลง 3.9 จุดเปอร์เซ็นต์
ประเด็นหลังน่าสนใจเป็นพิเศษ: ตัวแยกแยะที่ขาดการรับรู้ทางภาพสามารถจับได้เฉพาะรูปแบบผิวเผิน (เช่น รูปแบบ เทมเพลต และสไตล์) ซึ่งทำให้โมเดลนโยบายเรียนรู้ “การจัดแนวแบบนกแก้ว” – มันฟังดูเหมือนกำลังเลียนแบบข้อมูลควบคุม แต่จริงๆ แล้วมันไม่เห็นเนื้อหาที่กำลังอธิบายเลย
บทสรุป
การเสนอ PRISM ได้เพิ่ม “แพตช์” ให้กับกระบวนทัศน์การฝึกภายหลังของโมเดลมัลติโมดัลขนาดใหญ่ แต่ความสำคัญของแพตช์นี้อาจมากกว่าตัวโปรแกรมหลักเสียอีก
ระหว่าง SFT และ RL ไม่ได้เชื่อมต่อกันอย่างราบรื่น แต่มีรอยแยกการกระจายที่ถูกมองข้ามมานาน ไม่ว่าอัลกอริทึม RL จะแข็งแกร่งแค่ไหน หากจุดเริ่มต้นเบี่ยงเบนไปจากทิศทางแล้ว ยิ่งวิ่งเร็วเท่าไร ก็ยิ่งห่างจากเป้าหมายมากขึ้นเท่านั้น
เพื่อให้โมเดลมัลติโมดัลขนาดใหญ่ก้าวหน้าในงานให้เหตุผลมากขึ้น ไม่จำเป็นต้องมีอัลกอริทึม RL ที่ซับซ้อนขึ้นหรือข้อมูลการฝึกมากขึ้นเสมอไป
เติมเต็มขั้นตอนการจัดแนวระหว่าง SFT และ RL โมเดลจะเดินได้มั่นคงยิ่งขึ้นโดยธรรมชาติ
Arxiv: https://arxiv.org/abs/2604.28123
Github: https://github.com/XIAO4579/PRISM
สอบถามความร่วมมือ: swang886@connect.hkust-gz.edu.cn
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/35088
