ช่องว่างใหญ่ที่ซ่อนอยู่ระหว่าง SFT และ RL: รอยแยกที่มองไม่เห็นในการฝึกอบรมภายหลังของโมเดลหลายรูปแบบที่ถูกมองข้าม

7 hours ago • การฝึกโมเดลขนาดใหญ่ • 13 views

“รอยแยกที่ซ่อนเร้น” ที่ถูกมองข้าม: SFT ทำอะไรกันแน่?

มาดูข้อมูลที่น่าสนใจชุดหนึ่งกันก่อน (อิงจากค่าเฉลี่ยความแม่นยำของเกณฑ์มาตรฐานมัลติโมดัลหลัก 7 รายการ):

ระยะ	Qwen3-VL-4B	Qwen3-VL-8B
โมเดล Instruct ดั้งเดิม	59.7%	63.3%
หลัง SFT	56.8% (-3.0)	58.1% (-5.2)
SFT → GRPO	61.8%	63.3%

จะเห็นได้ว่า หลังจาก SFT ประสิทธิภาพของโมเดลกลับลดลงไม่เพิ่มขึ้น โมเดลขนาด 8B แสดงให้เห็นอย่างชัดเจนยิ่งขึ้น: SFT ทำให้ความแม่นยำลดลง 5.2 จุดเปอร์เซ็นต์ ในขณะที่การฝึกด้วย Reinforcement Learning (RL) ในภายหลังนั้นแทบจะดึงโมเดลกลับมาที่ระดับพื้นฐานเท่านั้น (63.3%→58.1%→63.3%)

นั่นหมายความว่า RL ของคุณอาจกำลัง “ชดใช้หนี้” อยู่ตลอด ไม่ใช่ “การพัฒนา” อย่างแท้จริง

นี่ไม่ใช่ปรากฏการณ์ที่เกิดขึ้นเดี่ยวๆ ในโมเดล Instruct ที่แข็งแกร่งในปัจจุบัน (เช่น ซีรีส์ Qwen3-VL) ตราบใดที่ข้อมูล SFT นำเสนอการกระจายใหม่ที่ไม่สอดคล้องกับโมเดลพื้นฐาน (ที่พบบ่อยที่สุดคือข้อมูลกลั่นจาก GPT/Gemini) ก็แทบจะสังเกตเห็นการลดลงของประสิทธิภาพที่คล้ายคลึงกันได้เสมอ

สาเหตุนั้นตรงไปตรงมา: โมเดลพื้นฐานประเภทนี้ผ่านการฝึกภายหลังขนาดใหญ่และละเอียดแล้ว ความสามารถของมันจึงอยู่ในระดับสูงที่ค่อนข้างคงที่อยู่แล้ว SFT บังคับให้โมเดลเลียนแบบการกระจายใหม่ ผลลัพธ์คือการใช้การกระจายที่ “แคบ” กว่าไปครอบคลุมความสามารถที่ “กว้าง” กว่า ทำให้ความสามารถเก่าถูกชะล้างออกไป และความสามารถใหม่ก็ไม่ได้เรียนรู้อย่างถ่องแท้

กล่าวอีกนัยหนึ่ง ยิ่งโมเดลแข็งแกร่งและใกล้เคียงกับระดับการใช้งานจริงมากเท่าไร การเปลี่ยนแปลงการกระจายที่ SFT นำเข้ามาก็ยิ่งกลายเป็น “หลุมพราง” ที่เลี่ยงไม่ได้ก่อน RL มากขึ้นเท่านั้น นี่คือเหตุผลหลักที่ PRISM ต้องมีอยู่

แก่นของปัญหานี้คือ “การเปลี่ยนแปลงการกระจาย” (Distributional Drift) ที่ถูกพูดถึงซ้ำแล้วซ้ำเล่าในการฝึกภายหลัง แต่ในสถานการณ์มัลติโมดัล มันแสดงออกในรูปแบบที่ซ่อนเร้นและรับมือได้ยากยิ่งขึ้น

รากเหง้าของปัญหา: อคติสองประเภทที่ SFT นำเข้ามา

ในสถานการณ์มัลติโมดัล SFT จะนำอคติสองประเภทที่มักถูกมองข้ามเข้ามา:

อคติที่หนึ่ง: การเลียนแบบผิวเผิน – การสูญเสียระดับ Token ทำให้กระบวนการและผลลัพธ์เท่าเทียมกัน

เป้าหมายการปรับให้เหมาะสมของ SFT คือการให้โมเดลเลียนแบบร่องรอยการสาธิตภายใต้การสูญเสียระดับ Token ที่สม่ำเสมอ มันไม่แยกแยะระหว่าง “กระบวนการ” และ “ผลลัพธ์”: สำหรับโมเดลแล้ว ขั้นตอนการให้เหตุผลที่ถูกต้องกับคำพูดเทมเพลตที่เป็นทางการนั้นมีน้ำหนักเท่ากันทุกประการ

ผลลัพธ์สุดท้ายคือ โมเดลเรียนรู้ที่จะ “ดูเหมือน” คำตอบที่ถูกต้อง ไม่ใช่ “คิด” หาคำตอบที่ถูกต้อง มันเรียนรู้รูปแบบผิวเผิน ไม่ใช่ความสามารถในการให้เหตุผลที่แท้จริง

อคติที่สอง: การเปลี่ยนแปลงการรับรู้และการเปลี่ยนแปลงการให้เหตุผลถูกปะปนกันในฟังก์ชันการสูญเสียเดียวกัน

นี่คือปัญหาที่เฉพาะเจาะจงในสถานการณ์มัลติโมดัล ต่างจากโมเดลข้อความล้วน การเปลี่ยนแปลงของโมเดลมัลติโมดัลไม่ได้มีเพียงประเภทเดียว แต่เป็นรูปแบบความล้มเหลวที่แตกต่างกันสองแบบที่เกิดขึ้นพร้อมกัน:
* การเปลี่ยนแปลงการรับรู้: การระบุตำแหน่งทางภาพผิดพลาด โมเดล “มองผิด”
* การเปลี่ยนแปลงการให้เหตุผล: กระบวนการ推导เชิงตรรกะล้มเหลว โมเดล “คิดผิดทาง”

สาเหตุและวิธีการแก้ไขของการเปลี่ยนแปลงทั้งสองประเภทนี้แตกต่างกัน แต่ SFT ใช้ฟังก์ชันการสูญเสีย Token เดียวกันในการ拟合ทั้งสองอย่าง เมื่อเข้าสู่ระยะ RL โมเดลก็เกิดการเปลี่ยนแปลงทั้งในด้านการรับรู้และการให้เหตุผลพร้อมกัน กลายเป็นโมเดลที่ “ทั้งมองไม่ชัด และคิดไม่ถูก”

ทำไมอัลกอริทึม RL ที่มีอยู่จึงไร้ทางสู้?

จาก GRPO ถึง DAPO และ GSPO อัลกอริทึม RL พัฒนาขึ้นอย่างต่อเนื่องจริง แต่มันแก้ไข ปัญหาภายในระยะ RL: ประสิทธิภาพการสุ่มตัวอย่าง ความแปรปรวนของเกรเดียนต์ การล่มสลายของนโยบาย ไม่มีอัลกอริทึม RL ใดที่จะย้อนกลับไปแก้ไขการเปลี่ยนแปลงการกระจายที่ SFT ทิ้งไว้

เปรียบเทียบแบบไม่ค่อยเหมาะสม: เหมือนกับการวิ่ง 100 เมตร SFT ไม่เพียงแต่ไม่ทำให้คุณก้าวหน้า แต่ยังผลักคุณถอยหลังไป 50 เมตร อัลกอริทึม RL ที่มีอยู่ทั้งหมดศึกษาว่าจะวิ่งให้เร็วขึ้นได้อย่างไร แต่จุดเริ่มต้นของคุณยังอยู่ในหลุม และสิ่งที่ PRISM จะทำ คือการเพิ่มขั้นตอนนี้ระหว่าง SFT และ RL: ไม่เพียงแต่ดึงคุณกลับไปที่เส้นเริ่มต้น แต่ยังผลักคุณไปข้างหน้าต่ออีกเล็กน้อย เพื่อให้ RL ต้องวิ่งแค่ 50 เมตรก็ถึงเส้นชัย

โซลูชันหลักของ PRISM: สายการผลิตสามระยะ

PRISM ทำลายกระบวนทัศน์สองระยะแบบดั้งเดิม และเสนอสายการผลิตสามระยะ SFT → การจัดแนวการกระจาย (PRISM) → RLVR นวัตกรรมสำคัญอยู่ที่ ระยะการจัดแนวการกระจาย ที่อยู่ตรงกลาง

ตัวแยกแยะผู้เชี่ยวชาญแบบผสม

การเปลี่ยนแปลงการรับรู้และการเปลี่ยนแปลงการให้เหตุผลเป็นอคติที่มีสาเหตุต่างกัน จำเป็นต้องจัดการแยกกัน ด้วยเหตุนี้ PRISM จึงออกแบบตัวแยกแยะผู้เชี่ยวชาญแบบผสม ซึ่งประกอบด้วยผู้เชี่ยวชาญเฉพาะทางสองคน:
* ผู้เชี่ยวชาญด้านการรับรู้ D_v: ประเมินคำอธิบายภาพโดยเฉพาะ วัดว่าเอาต์พุตของโมเดลซื่อสัตย์ต่อเนื้อหาของภาพหรือไม่ ใช้แก้ไขการเปลี่ยนแปลงการรับรู้
* ผู้เชี่ยวชาญด้านการให้เหตุผล D_r: ประเมินร่องรอยการให้เหตุผลโดยเฉพาะ วัดว่าการ推导เชิงตรรกะสอดคล้องและมีประสิทธิภาพหรือไม่ ใช้แก้ไขการเปลี่ยนแปลงการให้เหตุผล

คะแนนการแยกแยะสุดท้ายคือการรวมแบบถ่วงน้ำหนักของทั้งสอง:
r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

ข้อดีของการออกแบบนี้คือการให้ สัญญาณแก้ไขที่แยกออกจากกัน หลีกเลี่ยงการยัดเยียดรูปแบบความผิดพลาดที่แตกต่างกันโดยสิ้นเชิงสองแบบลงในสเกลาร์เดียว ซึ่งจะทำให้สัญญาณเกรเดียนต์มีเสียงรบกวน

ช่องว่างใหญ่ที่ซ่อนอยู่ระหว่าง SFT และ RL: รอยแยกที่มองไม่เห็นในการฝึกอบรมภายหลังของโมเดลหลายรูปแบบที่ถูกมองข้าม

การกลั่นแบบกล่องดำ: ไม่จำเป็นต้องใช้ Logits ของโมเดลครู

อีกจุดที่สง่างามของ PRISM คือมันเป็น กล่องดำ วิธีการกลั่นหลายวิธีจำเป็นต้องเข้าถึง Logits (การกระจายความน่าจะเป็นภายใน) ของโมเดลครู ซึ่งหมายความว่าคุณต้องมีน้ำหนักทั้งหมดของโมเดลครู แต่ในสถานการณ์จริง โมเดลที่แข็งแกร่งที่สุดมักจะให้บริการผ่าน API เท่านั้น คุณเห็นได้เฉพาะเอาต์พุต ไม่สามารถมองเห็นสถานะภายในได้

PRISM ทำงานทั้งหมดใน ระดับการตอบสนอง: เก็บรวบรวมเอาต์พุตคุณภาพสูงจากโมเดลที่แข็งแกร่ง (เช่น Gemini 3 Flash) เป็นตัวอย่างบวก และสุ่มตัวอย่างจากนโยบายปัจจุบันเป็นตัวอย่างลบ จากนั้นจัดแนวการกระจายผ่านเกมการต่อต้าน ตราบใดที่สามารถเรียก API ได้ ก็สามารถใช้ PRISM ได้

การตัดสินใจออกแบบที่สำคัญ: การลบ Regularization KL

การฝึก RL แบบดั้งเดิมมักจะเพิ่มข้อจำกัดความแตกต่างของ KL เพื่อป้องกันไม่ให้นโยบายเบี่ยงเบนไปจากโมเดลเริ่มต้นมากเกินไป แต่ PRISM ลบข้อจำกัดนี้ อย่างมีสติ เหตุผลนั้นง่าย: จุดประสงค์ของระยะการจัดแนวคือการแก้ไขการเปลี่ยนแปลงการกระจายที่ SFT นำเข้ามา การเพิ่มข้อจำกัด KL ที่ดึงนโยบายกลับไปสู่การกระจาย SFT นั้นขัดแย้งกับเป้าหมายนี้โดยเนื้อแท้

วิวัฒนาการการกระจาย: การจัดแนวดึงโมเดลกลับไปยังจุดเริ่มต้นที่ดีขึ้นจริง

ภาพด้านล่างแสดงวิวัฒนาการการกระจายอย่าง直观 ตั้งแต่ Base ถึง Post-SFT และ Post-Alignment ไม่ว่าจะเป็นการกระจายของจำนวนขั้นตอนการให้เหตุผลหรือจำนวนรายการคำอธิบายภาพ ต่างก็ค่อยๆ เข้าใกล้ข้อมูลควบคุม

จะเห็นได้อย่างชัดเจน: มีความแตกต่างอย่างมีนัยสำคัญระหว่าง Post-SFT (เส้นสีน้ำเงิน) และ Supervision (เส้นสีดำ) ในขณะที่ Post-Alignment (เส้นสีส้ม) ลดช่องว่างนี้ลงอย่างมาก และการปรับปรุงนี้ยังคงอยู่ต่อไปในระยะ Post-RLVR (เส้นสีเขียว)

การตรวจสอบการทดลอง

บนโมเดล Qwen3-VL ขนาด 4B และ 8B PRISM จับคู่กับอัลกอริทึม RL หลัก GRPO/DAPO/GSPO สามแบบ และตรวจสอบประสิทธิภาพอย่างครอบคลุมบน เกณฑ์มาตรฐานการให้เหตุผลทางคณิตศาสตร์ 4 รายการ (MathVista, MathVerse, MathVision, WeMath) และ เกณฑ์มาตรฐานมัลติโมดัลทั่วไป 3 รายการ (MMMU, MMMU-Pro, HallusionBench)

ตารางด้านล่างคือผลลัพธ์หลักของ Table 1 ในเอกสาร (แถวสีเทาคือ PRISM):

จากตารางหลักสามารถอ่านสัญญาณที่น่าสนใจหลายประการ:
1. ยิ่งโมเดลแข็งแกร่ง PRISM ยิ่งให้ประโยชน์มากขึ้น: โมเดล 8B ได้รับการปรับปรุงเฉลี่ย +6.0 ในขณะที่โมเดล 4B ได้ +4.4 ฐานที่แข็งแกร่งกว่าถูก SFT “ทำร้าย” มากกว่า จึงได้รับประโยชน์จากการจัดแนวมากขึ้น
2. PRISM ได้คะแนนดีที่สุดภายใต้ฐานเดียวกันในเกณฑ์ย่อยส่วนใหญ่ (ตัวหนาในตาราง) ครอบคลุมทั้งงานการให้เหตุผลทางคณิตศาสตร์และความเข้าใจภาพทั่วไป ซึ่งหมายความว่าการจัดแนวไม่ได้นำมาซึ่งการปรับปรุงเฉพาะด้านใดด้านหนึ่ง แต่เป็นการ ปรับเทียบระดับโลกในระดับการกระจาย

การทดสอบการตัดทอน: ทุกขั้นตอนขาดไม่ได้

จากตารางการตัดทอน (Table 2 ในเอกสาร) สามารถอ่านการมีส่วนร่วมของแต่ละองค์ประกอบได้อย่าง直观:
1. การลบระยะ SFT ทำให้ประสิทธิภาพลดลง 16.8 จุดเปอร์เซ็นต์ทันที แสดงให้เห็นว่า SFT ยังคงไม่สามารถถูกแทนที่ได้ในฐานะ “การเริ่มต้นเย็น” PRISM ไม่ได้มีไว้เพื่อแทนที่ SFT แต่เพื่อซ่อมแซมผลข้างเคียงที่มันนำมา
2. การลบระยะการจัดแนวทำให้ประสิทธิภาพลดลง 4.4 จุดเปอร์เซ็นต์ ซึ่งสอดคล้องกับขนาดการปรับปรุงในตารางหลักของ 4B อย่างสมบูรณ์ เป็นหลักฐานโดยตรงของผลการจัดแนวการกระจาย
3. การใช้ตัวแยกแยะ 4B ตัวเดียวแทน MoE ทำให้ประสิทธิภาพลดลง 3.4 จุดเปอร์เซ็นต์; การใช้เฉพาะตัวแยกแยะข้อความทำให้ประสิทธิภาพลดลง 3.9 จุดเปอร์เซ็นต์

ประเด็นหลังน่าสนใจเป็นพิเศษ: ตัวแยกแยะที่ขาดการรับรู้ทางภาพสามารถจับได้เฉพาะรูปแบบผิวเผิน (เช่น รูปแบบ เทมเพลต และสไตล์) ซึ่งทำให้โมเดลนโยบายเรียนรู้ “การจัดแนวแบบนกแก้ว” – มันฟังดูเหมือนกำลังเลียนแบบข้อมูลควบคุม แต่จริงๆ แล้วมันไม่เห็นเนื้อหาที่กำลังอธิบายเลย

บทสรุป

การเสนอ PRISM ได้เพิ่ม “แพตช์” ให้กับกระบวนทัศน์การฝึกภายหลังของโมเดลมัลติโมดัลขนาดใหญ่ แต่ความสำคัญของแพตช์นี้อาจมากกว่าตัวโปรแกรมหลักเสียอีก

ระหว่าง SFT และ RL ไม่ได้เชื่อมต่อกันอย่างราบรื่น แต่มีรอยแยกการกระจายที่ถูกมองข้ามมานาน ไม่ว่าอัลกอริทึม RL จะแข็งแกร่งแค่ไหน หากจุดเริ่มต้นเบี่ยงเบนไปจากทิศทางแล้ว ยิ่งวิ่งเร็วเท่าไร ก็ยิ่งห่างจากเป้าหมายมากขึ้นเท่านั้น

เพื่อให้โมเดลมัลติโมดัลขนาดใหญ่ก้าวหน้าในงานให้เหตุผลมากขึ้น ไม่จำเป็นต้องมีอัลกอริทึม RL ที่ซับซ้อนขึ้นหรือข้อมูลการฝึกมากขึ้นเสมอไป

เติมเต็มขั้นตอนการจัดแนวระหว่าง SFT และ RL โมเดลจะเดินได้มั่นคงยิ่งขึ้นโดยธรรมชาติ

Arxiv: https://arxiv.org/abs/2604.28123

Github: https://github.com/XIAO4579/PRISM

สอบถามความร่วมมือ: swang886@connect.hkust-gz.edu.cn

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/35088

Like (0)

0 0

MoE โหนดหลายจุดคอขวดประสิทธิภาพการอนุมานถูกพลิกโฉม: ระบบ Perseus ขจัดการซ่อนลำดับแบบอนุกรม บรรลุความเร็วเพิ่มขึ้น 10 เท่า

Previous 7 hours ago

การเรียนรู้ระหว่างการปรับใช้: ทำให้ LLM Agent พัฒนาอย่างต่อเนื่องในกระแสงานจริง

Next 7 hours ago

การฝึกโมเดลขนาดใหญ่

ที

งานวิจัยที่ก้าวล้ำของทีม Kaiming He: GeoPT ใช้การฝึกฝนล่วงหน้าด้วยไดนามิกสังเคราะห์ ทำให้ AI เรียนรู้กฎฟิสิกส์ด้วยตัวเอง ประหยัดข้อมูลจำลองได้ถึง 60% ทรัพย์สิน 3D แบบสถิตขาดข้อมูลไ…

2026年2月26日
304000
DeepSeek-V4 เปิดตัว: ซ่อนความหน่วงในการสื่อสารแบบขนานผู้เชี่ยวชาญละเอียด, การปรับแต่ง FP4 Quantization และ TileLang ร่วมกันเพื่อเพิ่มประสิทธิภาพบริบท Token หลายล้าน

เทคโนโลยี Expert Parallel (EP) ที่ใช้ในโมเดล Mixture of Experts (MoE) แม้จะช่วยเร่งกระบวนการอนุมานและฝึกฝนโมเดลได้อย่างมีประสิทธิภาพ แต่ก็นำมาซึ่งปัญหาการสื่อสารระหว่างโหนดที่ซับซ้…

การฝึกโมเดลขนาดใหญ่ 2026年4月27日
96000
การฝึกโมเดลขนาดใหญ่

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

ในกระบวนการพัฒนารุ่นภาษาขนาดใหญ่ (LLM) ขั้นตอนหลังการฝึกฝนมักถูกมองว่าเป็นขั้นตอนสำคัญที่มอบความสามารถเฉพาะให้กับโมเดล ความคิดเห็นดั้งเดิมเชื่อว่าโมเดลต้องปรับน้ำหนักผ่านอัลกอริทึม…

2026年3月15日
228000
การฝึกโมเดลขนาดใหญ่

นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ ‘AI ที่พัฒนาตนเองอย่างต่อเนื่อง’: ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์

เมื่อวานนี้ Zitong Yang นักศึกษาปริญญาเอกของมหาวิทยาลัยสแตนฟอร์ด ได้ผ่านการสอบป้องกันวิทยานิพนธ์ปริญญาเอกในหัวข้อ “AI ที่พัฒนาตนเองอย่างต่อเนื่อง” เรียบร้อยแล้ว หลังจาก…

2026年3月5日
217000
การฝึกโมเดลขนาดใหญ่

SKILL0: แม้โมเดลขนาดเล็กก็สามารถเป็นผู้เชี่ยวชาญเอเจนต์ได้! ทีมวิจัยจากมหาวิทยาลัยเจ้อเจียงเสนอกระบวนทัศน์ใหม่ในการทำให้ทักษะกลายเป็นส่วนหนึ่งของตัวโมเดล

โมเดลขนาดเล็กจะกลายเป็นผู้เชี่ยวชาญเอเจนต์อัจฉริยะได้อย่างไร? โดยทั่วไป การเสริมความสามารถของเอเจนต์โมเดลขนาดใหญ่มักใช้กระบวนทัศน์ “การเสริมทักษะ” ซึ่งหมายถึงการค้นหาแล…

2026年4月11日
136000