บอกลาความชอบแบบคู่! มหาวิทยาลัยแห่งชาติสิงคโปร์เสนอ TGO: จัดแนวโมเดลสร้างด้วยคะแนนสเกลาร์โดยตรง รับการตีพิมพ์ใน ICML 2026

15 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 16 views

บอกลาความชอบแบบคู่! มหาวิทยาลัยแห่งชาติสิงคโปร์เสนอ TGO: จัดแนวโมเดลการสร้างโดยตรงด้วยคะแนนสเกลาร์ รับเข้าสู่ ICML 2026

การจัดแนวความชอบของโมเดลการสร้าง อาจกำลังก้าวเข้าสู่ยุคใหม่

ในช่วงไม่กี่ปีที่ผ่านมา วิธีการหลักของการฝึกหลังการฝึก (post-training) สำหรับโมเดลขนาดใหญ่ คือการให้โมเดลเรียนรู้จาก “ความชอบแบบคู่” อย่างไรก็ตาม ไม่ว่าจะเป็น RLHF หรือ DPO ต่างก็เผชิญกับข้อจำกัดร่วมกัน: ข้อมูลป้อนกลับต้องอยู่ในรูปแบบคู่

แต่ในสถานการณ์การใช้งานจริง สัญญาณป้อนกลับส่วนใหญ่มักเป็น คะแนนสเกลาร์สำหรับตัวอย่างเดี่ยว

บอกลาความชอบแบบคู่! มหาวิทยาลัยแห่งชาติสิงคโปร์เสนอ TGO: จัดแนวโมเดลสร้างด้วยคะแนนสเกลาร์โดยตรง รับการตีพิมพ์ใน ICML 2026

เพื่อแก้ไขปัญหานี้ ทีมวิจัยจากมหาวิทยาลัยแห่งชาติสิงคโปร์ได้เสนอแนวทางแก้ไขที่ตรงไปตรงมามากขึ้น: Threshold-Guided Optimization (TGO) นี่คือกระบวนทัศน์ใหม่ที่ไม่พึ่งพาข้อมูลความชอบแบบคู่ แต่ใช้คะแนนสเกลาร์ของตัวอย่างอิสระโดยตรงในการจัดแนวโมเดล

พูดง่ายๆ วิธีนี้จะประมาณค่าเกณฑ์จากกระจายของคะแนน ตัวอย่างที่มีคะแนนสูงกว่าเกณฑ์จะถูกมองว่าเป็น “เชิงบวกเทียม” (pseudo-positive) ส่วนตัวอย่างที่ต่ำกว่าเกณฑ์จะถูกมองว่าเป็น “เชิงลบเทียม” (pseudo-negative) ในระหว่างการฝึก โมเดลจะเพิ่มความน่าจะเป็นของตัวอย่างแรกเมื่อเทียบกับโมเดลอ้างอิง (reference model) และลดความน่าจะเป็นของตัวอย่างหลัง

ในขณะเดียวกัน ยิ่งช่องว่างระหว่างคะแนนตัวอย่างกับเกณฑ์มากเท่าไร หมายถึงสัญญาณกำกับดูแลยิ่งแน่นอนมากขึ้น และตัวอย่างนั้นจะมีน้ำหนักในการฝึกสูงขึ้น

ปัจจุบัน งานวิจัยนี้ได้รับการตอบรับให้ตีพิมพ์ใน ICML 2026 ซึ่งถือเป็นจุดเปลี่ยนที่การจัดแนวของโมเดลการสร้างไม่ได้พึ่งพาเพียงแค่ “อันไหนดีกว่า” อีกต่อไป แต่เริ่มใช้ข้อมูล “อันนี้ดีแค่ไหน” โดยตรง

ความสง่างามของ DPO มาจากข้อมูลแบบคู่

สาเหตุสำคัญที่ DPO กลายเป็นวิธีการที่เป็นตัวแทนในด้านการเพิ่มประสิทธิภาพความชอบ ก็คือมันได้แปลงเป้าหมายการเสริมกำลังการเรียนรู้แบบ KL-regularized ที่ซับซ้อน ให้กลายเป็นเป้าหมายการจำแนกประเภทที่สามารถฝึกได้โดยตรงอย่างชาญฉลาด

ภายใต้กรอบเป้าหมายนี้ โมเดลไม่จำเป็นต้องฝึกโมเดลรางวัล (reward model) อย่างชัดแจ้ง หรือต้องทำการสุ่มตัวอย่างนโยบายออนไลน์ (online rollout) เช่น PPO เพียงใช้ข้อมูลคู่ความชอบแบบออฟไลน์ ก็สามารถทำการ fitting นโยบาย (policy fitting) ได้

โครงสร้างทางคณิตศาสตร์เบื้องหลังนั้นชัดเจนมาก:

ภายใต้เป้าหมายการจัดแนวแบบ KL-regularized นโยบายที่เหมาะสมที่สุดสามารถหาคำตอบแบบปิด (closed-form solution) ได้ แต่คำตอบนี้มีฟังก์ชันการแบ่งส่วน (partition function) ซึ่งเป็นเทอม normalization ที่ต้องรวมผลลัพธ์ที่เป็นไปได้ทั้งหมด ซึ่งโดยทั่วไปแล้วไม่สามารถคำนวณได้

สาเหตุที่ DPO สามารถหลีกเลี่ยงปัญหานี้ได้ ก็เพราะเมื่อเปรียบเทียบผลลัพธ์ที่ชอบ (preferred output) กับผลลัพธ์ที่ถูกปฏิเสธ (rejected output) ภายใต้ prompt เดียวกัน ฟังก์ชันการแบ่งส่วนนี้จะหักล้างกันเองโดยธรรมชาติเมื่อคำนวณผลต่างของรางวัล (reward difference)

กล่าวอีกนัยหนึ่ง ความเรียบง่ายของ DPO ส่วนใหญ่มาจากข้อมูลความชอบแบบคู่ โดยการเปรียบเทียบผลลัพธ์สองรายการ เทอมที่คำนวณยากก็หายไป และปัญหาก็ลดรูปเป็นปัญหาการจำแนกประเภทเกี่ยวกับความน่าจะเป็นสัมพัทธ์

อย่างไรก็ตาม ข้อได้เปรียบนี้ก็กลับกลายเป็นข้อจำกัดของมันเช่นกัน

ทันทีที่สัญญาณกำกับดูแลไม่ใช่ข้อมูลแบบคู่อีกต่อไป แต่เป็นคะแนนสเกลาร์ (scalar score) ของตัวอย่างเดี่ยว วิธีการเดิมที่อาศัย “การลบทีละคู่” เพื่อหักล้างฟังก์ชันการแบ่งส่วนก็ใช้ไม่ได้อีกต่อไป

ดังนั้น วิธีปฏิบัติทั่วไปคือการแปลงคะแนนสเกลาร์เป็นคู่ความชอบ ตัวอย่างเช่น การจัดอันดับภายใน batch หนึ่งๆ โดยถือว่าตัวอย่างคะแนนสูงเป็นผู้ชนะ (winner) และตัวอย่างคะแนนต่ำเป็นผู้แพ้ (loser) หรือการเปรียบเทียบผลลัพธ์หลายตัวภายใต้ prompt เดียวกันแบบทีละคู่ แล้วสร้างคู่ “เลือก/ปฏิเสธ” (chosen/rejected pair)

แม้ว่าวิธีนี้จะใช้ได้ แต่ก็ทำให้เกิด การสูญเสียข้อมูล

ตัวอย่างที่ได้ 9.5 คะแนน กับ 7.5 คะแนน ในการฝึกแบบคู่อาจถูกระบุเป็นผู้ชนะทั้งคู่ ในขณะที่ตัวอย่างที่ได้ 4.9 คะแนน กับ 4.8 คะแนน อาจถูกบังคับให้แยกเป็นผู้ชนะและผู้แพ้

เมื่อคะแนนของสองตัวอย่างต่างกันน้อยมาก และสัญญาณรบกวนในการให้คะแนนมีสูง คู่ความชอบที่สร้างขึ้นโดยมนุษย์แบบนี้อาจไม่น่าเชื่อถือ และอาจขยายสัญญาณกำกับดูแลที่ผิดพลาดให้ใหญ่ขึ้น

สำหรับงานการสร้างภาพ (visual generation) ปัญหานี้ยิ่งเด่นชัดเป็นพิเศษ

คุณภาพของภาพและวิดีโอแทบจะไม่สามารถวัดได้ด้วยการตัดสินแบบสองขั้วง่ายๆ ภาพหนึ่งอาจมีความสวยงามในเชิงสุนทรียภาพ แต่การจัดแนวข้อความ (text alignment) อาจอยู่ในระดับปานกลาง หรืออาจมีองค์ประกอบที่ถูกต้อง แต่สไตล์ไม่เหมาะ ในขณะที่วิดีโอยังต้องพิจารณาว่าการเคลื่อนไหวเป็นธรรมชาติหรือไม่ วัตถุคงที่หรือไม่ และความต่อเนื่องของเวลาหรือไม่

หลายครั้ง คะแนนต่อเนื่องให้ข้อมูลป้อนกลับที่สะท้อนความเป็นจริงได้ดีกว่าป้ายผู้ชนะ/ผู้แพ้แบบง่ายๆ

สามแนวทาง ต่างก็ผ่อนคลายข้อจำกัดแบบคู่

สำหรับ TGO ที่ทีมวิจัยเสนอใหม่ ก็ไม่ได้เกิดขึ้นมาจากความว่างเปล่า งานวิจัยหลายชิ้นในช่วงหลังต่างก็ตอบสนองต่อคำถามหลักเดียวกัน: การเพิ่มประสิทธิภาพความชอบจะไม่พึ่งพาความชอบแบบคู่อย่างหนักได้หรือไม่?

PMPO

อันดับแรกคือบทความ 《Preference Optimization as Probabilistic Inference》 ที่เพิ่งเผยแพร่โดย Google DeepMind

จุดเริ่มต้นของงานนี้คือ โมเดลไม่จำเป็นต้องเห็นตัวอย่างความชอบ/ไม่ชอบที่จับคู่กันอย่างเคร่งครัดเพื่อเรียนรู้ความชอบ

ตราบใดที่มีตัวอย่างที่ชอบ (preferred examples) หรือตัวอย่างที่ไม่ชอบ (dis-preferred examples) หรือแม้แต่มีเพียง feedback ชนิดใดชนิดหนึ่ง ก็สามารถทำการเพิ่มประสิทธิภาพได้

ในเชิงวิธีการ มันใช้การปรับปรุงนโยบายแบบ EM-style (EM-style policy improvement) โดยแยกฟังก์ชันวัตถุประสงค์ออกเป็นสามส่วน: เพิ่มความน่าจะเป็น (likelihood) ของตัวอย่างที่ชอบ, ลดความน่าจะเป็นของตัวอย่างที่ไม่ชอบ, และทำให้นโยบายใหม่อยู่ใกล้กับนโยบายอ้างอิง

ลักษณะเด่นหลักของแนวทางนี้คือโครงสร้าง feedback มีความยืดหยุ่นมากขึ้น DPO แบบดั้งเดิมต้องการตัวอย่าง “เลือก” และ “ปฏิเสธ” ภายใต้ prompt เดียวกันมาจับคู่กัน ในขณะที่ PMPO อนุญาตให้ตัวอย่างบวกและลบไม่จำเป็นต้องมาเป็นคู่ และยังอนุญาตให้การกระจายของข้อมูลไม่สมดุล

สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับงานจริงหลายอย่าง เพราะในข้อมูลจริงมักมีเพียง feedback เดี่ยวๆ เช่น “ผลลัพธ์นี้ดี” หรือ “ผลลัพธ์นี้ใช้ไม่ได้” แทนที่จะเป็นการเปรียบเทียบแบบคู่ที่สมบูรณ์

QRPO

บทความ 《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》 แก้ปัญหาจากอีกมุมหนึ่ง:

หากเรามีรางวัลสัมบูรณ์แบบจุดต่อจุด (pointwise absolute reward) แทนที่จะเป็นป้ายบวก/ลบ เราสามารถทำ policy fitting ได้โดยตรงหรือไม่?

เบื้องหลังนี้ยังคงหนีไม่พ้น ฟังก์ชันการแบ่งส่วน

วิธีการของ QRPO คือการแปลงรางวัลดั้งเดิมเป็นรางวัลควอนไทล์ (quantile reward) ด้วยวิธีนี้ ภายใต้นโยบายอ้างอิง การกระจายของรางวัลควอนไทล์จะกลายเป็นการกระจายแบบสม่ำเสมอ (uniform distribution) และฟังก์ชันการแบ่งส่วนก็จะมีรูปแบบเชิงวิเคราะห์ (analytic form)

ดังนั้น โมเดลสามารถใช้เป้าหมายการถดถอยแบบจุดต่อจุด (pointwise regression objective) ที่เรียบง่าย เพื่อ fitting นโยบายที่เหมาะสมที่สุดภายใต้เป้าหมาย KL-regularized โดยตรง โดยไม่ต้องพึ่งพาการเปรียบเทียบแบบคู่เพื่อหักล้างเทอม normalization

TGO

และ 《Threshold-Guided Optimization for Visual Generative Models》 ที่แนะนำในบทความนี้ ก็ตอบสนองต่อปัญหานี้เช่นกัน เพียงแต่จัดการกับแง่มุมที่แตกต่างกันของปัญหาเดียวกันกับ PMPO และ QRPO

PMPO เน้นที่ feedback บวก/ลบที่ไม่จับคู่ QRPO เน้นที่การ fitting นโยบายแบบวิเคราะห์ได้ด้วยรางวัลสัมบูรณ์แบบจุดต่อจุด ในขณะที่ TGO มุ่งเป้าไปที่โมเดลการสร้างภาพ และเลือก โครงร่างเกณฑ์ที่เบากว่า

จุดร่วมของทั้งสามคือ การปลดปล่อยการเพิ่มประสิทธิภาพความชอบจากข้อกำหนดที่ว่า “ต้องมีข้อมูลแบบคู่”

แกนหลักของ TGO: การใช้เกณฑ์ประมาณค่า baseline

โดยเฉพาะอย่างยิ่ง วิธีการของ TGO แม้จะดูเรียบง่าย แต่ไม่ใช่แค่การตั้งค่าเกณฑ์เพื่อทำ binary classification การ推导เบื้องหลังมาจาก เป้าหมายการจัดแนวแบบ KL-regularized

สิ่งนี้นำไปสู่คำถาม: สำหรับตัวอย่างที่กำหนด นโยบายที่เหมาะสมที่สุดควรเพิ่มความน่าจะเป็นหรือลดความน่าจะเป็นของมัน?

ในทางทฤษฎี ขึ้นอยู่กับว่ารางวัลของตัวอย่างนี้เกินค่า baseline oracle เฉพาะอินสแตนซ์ (instance-specific oracle baseline) หรือไม่ หากรางวัลสูงกว่า baseline โมเดลควรเพิ่มความน่าจะเป็นของตัวอย่างนั้นเมื่อเทียบกับโมเดลอ้างอิง หากรางวัลต่ำกว่า baseline ก็ควรลดความน่าจะเป็น

อย่างไรก็ตาม oracle baseline นี้เกี่ยวข้องกับฟังก์ชันการแบ่งส่วน และโดยทั่วไปไม่สามารถคำนวณได้

DPO ใช้การเปรียบเทียบแบบคู่เพื่อให้มันหักล้างกัน QRPO ใช้การแปลงควอนไทล์ (quantile transformation) เพื่อให้ฟังก์ชันการแบ่งส่วนสามารถวิเคราะห์ได้ ในขณะที่ TGO เลือกใช้ เกณฑ์ระดับโลกที่ขับเคลื่อนด้วยข้อมูล (data-driven global threshold) เพื่อประมาณค่ามัน

TGO จะประมาณค่าเกณฑ์จากการกระจายคะแนนของชุดข้อมูลที่มีคะแนน (scored dataset) ก่อน

วิธีที่ใช้บ่อยที่สุดคือการตั้งค่าเกณฑ์เปอร์เซ็นไทล์ (percentile threshold) เช่น เลือกค่ามัธยฐาน (median) จากนั้น ตัวอย่างทั้งหมดที่มีคะแนนเกินเกณฑ์นี้จะถูกระบุเป็น “เชิงบวกเทียม” (pseudo-positive) ในขณะที่ตัวอย่างที่ต่ำกว่าเกณฑ์จะถูกระบุเป็น “เชิงลบเทียม” (pseudo-negative)

ในขั้นตอนการฝึก โมเดลจะปรับอัตราส่วน log-likelihood (log-likelihood ratio) ของตัวเองเมื่อเทียบกับโมเดลอ้างอิง (reference model): สำหรับตัวอย่าง pseudo-positive จะเพิ่มอัตราส่วนนี้ สำหรับตัวอย่าง pseudo-negative จะลดอัตราส่วนนี้

ยิ่งไปกว่านั้น TGO ยังแนะนำกลไก การถ่วงน้ำหนักด้วยความเชื่อมั่น (confidence weighting) ยิ่งคะแนนของตัวอย่างอยู่ห่างจากเกณฑ์มากเท่าไร แสดงว่าความเชื่อมั่นในการตัดสินว่าเป็นบวกหรือลบยิ่งสูง ดังนั้นการมีส่วนร่วมต่อกระบวนการฝึกก็ควรจะมากขึ้น ในทางกลับกัน ตัวอย่างที่มีคะแนนใกล้เคียงกับเกณฑ์ การ归属类别จะคลุมเครือ และจะได้รับน้ำหนักที่ต่ำกว่าในการฝึก

ด้วยวิธีนี้ TGO ไม่ได้ทิ้งข้อมูลขนาด (magnitude) ในคะแนนสเกลาร์ไปโดยสิ้นเชิง แต่เปลี่ยนระดับคะแนนให้เป็นความเข้มข้นของสัญญาณกำกับดูแลอย่างชาญฉลาด

ดังนั้น กฎของ TGO สามารถสรุปได้สองระดับ: เกณฑ์กำหนดทิศทางการอัปเดต ในขณะที่ระยะทางกำหนดแรงในการอัปเดต

นี่คือความแตกต่างที่สำคัญระหว่างมันกับวิธีการทำ binary แบบธรรมดา การทำ binary แบบธรรมดาเก็บไว้เพียงป้ายบวก/ลบ ในขณะที่กลไกการถ่วงน้ำหนักด้วยความเชื่อมั่นของ TGO ยังคงใช้ ระดับระยะห่างระหว่างคะแนนกับเกณฑ์

สำหรับงานอย่างการสร้างภาพ ซึ่งสัญญาณรบกวนในการให้คะแนนสูงและการกระจายคุณภาพต่อเนื่อง ประเด็นนี้สำคัญอย่างยิ่ง

ต้องเน้นย้ำว่า TGO ไม่ได้ขจัดความพึ่งพาคุณภาพของ feedback คะแนนสเกลาร์ยังคงต้องมีความสัมพันธ์เพียงพอกับความชอบเป้าหมาย หากตัวให้คะแนน (scorer) มีอคติหรือสัญญาณรบกวนสูง ป้ายเทียมที่สร้างโดยเกณฑ์ก็จะสืบทอดข้อบกพร่องเหล่านี้

ดังนั้น คุณค่าหลักของ TGO คือการให้วิธีการใช้ประโยชน์จาก scalar feedback โดยตรงมากขึ้น แทนที่จะพยายามแทนที่การสร้างแบบจำลอง feedback เสียเอง

เหตุใดการสร้างภาพจึงเหมาะสมเป็นพิเศษกับ scalar feedback

ในโมเดลภาษา ความชอบแบบคู่ (pairwise preference) เป็นรูปแบบ feedback ที่เป็นธรรมชาติมาก มนุษย์มักจะมีความเสถียรมากกว่าในการเปรียบเทียบข้อดีข้อเสียของคำตอบสองข้อ มากกว่าการให้คะแนนโดยตรง อย่างไรก็ตาม ในด้านการสร้างภาพ สถานการณ์กลับแตกต่างออกไป

คุณภาพดีหรือไม่ดีของภาพ มักไม่สามารถสรุปได้ด้วย “ดีกว่าภาพอื่น” ง่ายๆ ภาพอาจมีความสวยงามโดดเด่น แต่การจัดแนวข้อความ (prompt alignment) อาจบกพร่องเล็กน้อย หรืออาจมีความหมายถูกต้องแม่นยำ แต่องค์ประกอบอาจดูธรรมดา นอกจากนี้ ยังมีความชอบส่วนตัวอีกมากมาย เช่น สไตล์ โทนสี ท่าทางของบุคคล ความซับซ้อนของพื้นหลัง เป็นต้น

ปัจจัยซับซ้อนเหล่านี้รวมกัน ทำให้เหมาะสมที่จะแสดงเป็นคะแนนต่อเนื่อง หรือคะแนนในหลายมิติ

การสร้างวิดีโอยิ่งเป็นเช่นนั้น วิดีโอไม่เพียงต้องประเมินคุณภาพของแต่ละเฟรม แต่ยังต้องพิจารณาความสมเหตุสมผลของการเคลื่อนไหว ความสอดคล้องทางเวลา ความเสถียรของวัตถุ การเปลี่ยนแปลงของมุมกล้อง และระดับการจัดแนวข้อความ

การบีบสัญญาณอันหลากหลายเหล่านี้ให้เป็นความชอบแบบคู่ (pairwise preference) มักนำไปสู่การสูญเสียข้อมูลรายละเอียดจำนวนมาก

ในผลิตภัณฑ์จริง feedback จากผู้ใช้ก็ใกล้เคียงกับ scalar feedback หรือ implicit feedback มากกว่า ผู้ใช้อาจกดถูกใจ บุ๊กมาร์ก คลิก หยุดดู ให้คะแนน หรือแก้ไขผลลัพธ์ที่สร้างขึ้นครั้งที่สอง

สัญญาณเหล่านี้โดยธรรมชาติแล้วไม่ได้มาเป็นคู่ แต่มันคือแหล่งข้อมูลที่สำคัญอย่างยิ่งในการปรับปรุงโมเดล หากวิธีการจัดแนวสามารถจัดการได้เฉพาะรูปแบบ “ผู้ชนะ/ผู้แพ้” (winner/loser) ก็จะใช้ประโยชน์จาก feedback ประเภทนี้ได้ยาก

TGO ได้รับการออกแบบมาเพื่อเติมเต็มช่องว่างนี้ มันไม่ต้องการให้แต่ละ prompt มีผลลัพธ์หลายตัวเลือก และไม่ต้องการให้สร้างคู่ความชอบโดยมนุษย์ ตราบใดที่แต่ละตัวอย่างมีคะแนนติดมาก็สามารถใช้ฝึกได้โดยตรง

สิ่งนี้ทำให้กระบวนการจัดแนวของโมเดลการสร้างภาพ ใกล้เคียงกับวิธีการรวบรวม feedback จริงมากขึ้น

จากภาพสู่วิดีโอ: การตรวจสอบ TGO ในกระบวนทัศน์การสร้างภาพที่หลากหลาย

การทดลองในบทความครอบคลุมกระบวนทัศน์การสร้างภาพหลักสองแบบ: แบบแรกคือ โมเดลที่ใช้การแพร่ (diffusion-based models) และแบบที่สองคือ โมเดลการสร้างแบบใช้ mask (masked generative models)

แบบแรกประกอบด้วยโมเดลทั่วไป เช่น Stable Diffusion v1.5, FLUX, Wan 1.3B ในขณะที่แบบหลังรวมถึง Meissonic ซึ่งเป็น masked generative transformer

สิ่งนี้บ่งชี้ว่า TGO ไม่ได้ปรับให้เข้ากับโครงสร้างโมเดลเฉพาะใดๆ เท่านั้น สำหรับโมเดล diffusion มันสามารถรวมกับฟังก์ชันวัตถุประสงค์แบบ MSE-style สำหรับโมเดลการสร้างแบบไม่ต่อเนื่อง (discrete generative models) แบบ MaskGIT มันก็สามารถฝึกตาม token likelihood ได้

กล่าวอีกนัยหนึ่ง TGO 更像เป็นกรอบงานการจัดแนว scalar feedback ทั่วไป (scalar-feedback alignment framework) มากกว่าเป็นเทคนิคเฉพาะสำหรับสถาปัตยกรรมใดสถาปัตยกรรมหนึ่ง

ในการทดลองการสร้างภาพ TGO ได้รับการประเมินบนชุดทดสอบ เช่น Pick-a-Pic, PartiPrompts และ HPSv2 และใช้โมเดลรางวัล (reward model) หลายตัว เช่น HPSv2.1, PickScore, ImageReward, CLIPScore, LAION Aesthetic Score เป็นตัวชี้วัด

ผลการทดลองแสดงให้เห็นว่า เมื่อเปรียบเทียบกับวิธีการต่างๆ เช่น SFT, CSFT, AlignProp, Diffusion-DPO, Diffusion-KTO, DSPO TGO สามารถได้คะแนนโมเดลรางวัล (reward-model scores) ที่สูงกว่าในการตั้งค่าต่างๆ

ในด้านการจัดแนวการสร้างภาพ ข้อกังวลทั่วไปคือ reward hacking: โมเดลอาจเพิ่มคะแนนของโมเดลรางวัลตัวใดตัวหนึ่งให้สูงมาก แต่คุณภาพการสร้างจริงไม่ได้ดีขึ้น

TGO สามารถปรับปรุงคะแนนบนโมเดลรางวัลหลายตัว ซึ่งแสดงให้เห็นว่ามันไม่ได้แค่ fitting ตัวให้คะแนนเฉพาะเจาะจง แต่ นำมาซึ่งการปรับปรุงที่สำคัญในมิติความชอบทางภาพที่กว้างขึ้น

ในด้านการสร้างวิดีโอ TGO-LoRA ถูกนำไปใช้ในการตั้งค่าการทดลองของ Wan 1.3B+VideoReward ผลลัพธ์แสดงให้เห็นว่า它不仅提升了整体的 VideoReward 分数，还改善了多个子指标。

สิ่งนี้บ่งชี้ว่า scalar feedback แบบใช้เกณฑ์ (threshold-guided scalar feedback) ไม่ใช่แค่วิธีการเฉพาะสำหรับการสร้างภาพ แต่ ยังมีศักยภาพในการขยายไปสู่การสร้างวิดีโอ

ไม่ใช่การแทนที่ DPO แต่เป็นการเพิ่มอินเทอร์เฟซ feedback อีกประเภท

แต่ เจตนารมณ์ดั้งเดิมของ TGO ไม่ใช่การปฏิเสธ DPO

ความชอบแบบคู่ (pairwise preference) ยังคงสำคัญมาก และในหลายๆ งาน มันยังคงเป็นรูปแบบ feedback ที่เสถียรและเข้าใจง่ายที่สุด โดยเฉพาะอย่างยิ่งเมื่อมนุษย์ให้คะแนนสัมบูรณ์ได้ยาก แต่สามารถเปรียบเทียบข้อดีข้อเสียของผลลัพธ์สองอย่างได้ ความชอบแบบคู่ยังคงมีคุณค่าในทางปฏิบัติสูง

อย่างไรก็ตาม ปัญหาคือ ความชอบแบบคู่ไม่ควรเป็นอินเทอร์เฟซ feedback เพียงอย่างเดียว

โมเดลการสร้างกำลังเข้าสู่สถานการณ์การใช้งานจริงมากขึ้นเรื่อยๆ และ feedback ในสถานการณ์จริงจะไม่มาในรูปแบบ “เลือก/ปฏิเสธ” (chosen/rejected) เสมอไป

โมเดลภาษาได้รับคะแนนโมเดลรางวัล (reward model score), รางวัลที่ตรวจสอบได้ (verifiable reward), ผลการตรวจสอบทางคณิตศาสตร์, อัตราการผ่านโค้ด โมเดลภาพได้รับคะแนนสุนทรียภาพ, คะแนนการจัดแนวข้อความ-ภาพ, คะแนนจากมนุษย์ โมเดลวิดีโอได้รับคุณภาพการเคลื่อนไหว, ความสอดคล้องทางเวลา และคะแนนการจัดแนวข้อความ-วิดีโอ ระบบมัลติโมดัลยังมีสัญญาณพฤติกรรมผู้ใช้ เช่น การคลิก, การบุ๊กมาร์ก, การหยุดดู, การแก้ไข

feedback เหล่านี้ส่วนใหญ่เป็นแบบจุดต่อจุด (pointwise) พวกมันไม่ได้บอกโมเดลว่า “อันนี้ดีกว่าอันอื่น” แต่บอกโมเดลว่า “ผลลัพธ์นี้ดีแค่ไหน” หากวิธีการจัดแนวสามารถจัดการได้เฉพาะข้อมูลเปรียบเทียบ ก็จะพลาดสัญญาณกำกับดูแลที่มีอยู่ตามธรรมชาติจำนวนมาก

ความสำคัญร่วมกันของ PMPO, QRPO และ TGO อยู่ที่ การขยายการเพิ่มประสิทธิภาพความชอบจากการกำกับดูแลแบบคู่ (pairwise supervision) ไปสู่การเพิ่มประสิทธิภาพ feedback ทั่วไป (feedback optimization)

PMPO แสดงให้เห็นว่า feedback บวกและลบที่ไม่จับคู่สามารถรวมเข้ากับการปรับปรุงนโยบายแบบ probabilistic inference QRPO แสดงให้เห็นว่ารางวัลสัมบูรณ์สามารถเข้าสู่ policy fitting แบบวิเคราะห์ได้ผ่าน quantile reward และ TGO แสดงให้เห็นว่าในด้านการสร้างภาพ เกณฑ์เชิงประจักษ์บวกกับน้ำหนักความเชื่อมั่น ก็เพียงพอที่จะแปลงคะแนนสเกลาร์ (scalar score) เป็นสัญญาณการจัดแนวที่มีประสิทธิภาพ

แล้วเหตุใดเรื่องนี้จึงควรได้รับการพิจารณาอย่างจริงจังในตอนนี้?

เพราะ ยิ่งโมเดลการสร้างพัฒนาไปในทิศทางผลิตภัณฑ์ รูปแบบ feedback ก็ยิ่งซับซ้อน

งานวิจัยการจัดแนวในยุคแรกสามารถสมมติว่ามีคู่ความชอบที่สะอาด แต่ผู้ใช้จริงจะไม่คอยเปรียบเทียบ A/B ให้ระบบเสมอไป

บ่อยครั้ง สิ่งที่ระบบได้รับคือคะแนนหนึ่งครั้ง การคลิกหนึ่งครั้ง การบุ๊กมาร์กหนึ่งครั้ง การหยุดดูหนึ่งครั้ง หรือการแก้ไขหนึ่งครั้ง สัญญาณเหล่านี้ดูกระจัดกระจาย แต่อาจเป็นแหล่งข้อมูลหลักสำหรับ post-training ในระยะต่อไป

โดยเฉพาะอย่างยิ่งสำหรับการสร้างภาพ คุณภาพของภาพและวิดีโอไม่ใช่การตัดสินแบบขาวดำ แต่เป็นผลรวมของสุนทรียภาพ ความหมาย โครงสร้าง การเคลื่อนไหว สไตล์ และความชอบส่วนบุคคล การเรียนรู้จาก scalar feedback โดยตรง อาจเป็นธรรมชาติกว่าและขยายได้ง่ายกว่าการสร้างคู่ความชอบก่อน

คุณค่าของ TGO อยู่ตรงนี้ มันไม่ได้ทำให้ปัญหาซับซ้อนขึ้น แต่ใช้วิธีที่จำกัดมาก เชื่อมต่อ scalar feedback เข้ากับเป้าหมายการจัดแนวแบบ KL-regularized (KL-regularized alignment objective)

ในทางทฤษฎี มันใช้เกณฑ์เชิงประจักษ์ประมาณค่า oracle baseline ที่ไม่สามารถคำนวณได้ ในทางวิศวกรรม มันต้องการเพียงตัวอย่างที่มีคะแนน (scored samples) เพื่อฝึก ในทางปฏิบัติ มันครอบคลุมทั้งโมเดล diffusion และกระบวนทัศน์การสร้างแบบ mask (masked generative paradigms) และนำมาซึ่งการปรับปรุงที่เสถียรในงานภาพและวิดีโอ

นี่อาจเป็นก้าวสำคัญต่อไปของการจัดแนวโมเดลการสร้าง: โมเดลไม่ควรเรียนรู้ได้เพียงจาก “ใครชนะ” แต่ควรเรียนรู้จาก “ผลลัพธ์นี้ดีแค่ไหน” ได้ด้วย

โดยสรุป ในอดีต อินเทอร์เฟซหลักของการเพิ่มประสิทธิภาพความชอบคือการเปรียบเทียบแบบคู่ (pairwise comparison) อินเทอร์เฟซนี้ชัดเจนเพียงพอ และก่อให้เกิดวิธีการที่เรียบง่ายและมีประสิทธิภาพ เช่น DPO/GRPO

เมื่อโมเดลการสร้างก้าวเข้าสู่สถานการณ์การใช้งานจริงที่ซับซ้อนมากขึ้น สัญญาณ feedback เองก็มีความหลากหลายมากขึ้น คะแนน, อัตราการผ่าน, ผลลัพธ์ของโมเดลรางวัล, บันทึกพฤติกรรมผู้ใช้, การดำเนินการแก้ไข — สัญญาณแบบจุด (pointwise signals) เหล่านี้จะแพร่หลายมากขึ้น

วิธีแก้ปัญหาที่ TGO มอบให้ตรงไปตรงมามาก: ไม่จำเป็นต้องบังคับแบ่งสัญญาณเหล่านี้ออกเป็นผู้ชนะและผู้แพ้ สำหรับโมเดลการสร้างภาพ เพียงตั้งค่าเกณฑ์ที่สมเหตุสมผล ก็สามารถแปลงคะแนนสเกลาร์เป็นทิศทางการอัปเดต พร้อมกันนี้ ใช้ช่องว่างระหว่างคะแนนกับเกณฑ์เพื่อวัดความน่าเชื่อถือของสัญญาณกำกับดูแลนี้

นี่ไม่ใช่ระบบที่ซับซ้อน หรือ pipeline การเสริมกำลังการเรียนรู้ที่หนักหน่วง มัน更像เป็นวิธีที่ตรงไปตรงมามากขึ้น ในการส่งข้อมูลที่มีอยู่แล้วใน feedback จริงไปยังโมเดล

หากกล่าวว่า DPO ทำให้การเพิ่มประสิทธิภาพความชอบหลุดพ้นจากการเสริมกำลังการเรียนรู้ที่ซับซ้อน งานอย่าง TGO, QRPO และ PMPO ก็กำลังผลักดันให้การเพิ่มประสิทธิภาพความชอบหลุดพ้นจากการพึ่งพาการเปรียบเทียบแบบคู่อย่างหนักต่อไป

ระยะต่อไปของการจัดแนวโมเดลการสร้าง อาจไม่ใช่แค่การถามว่า “อันไหนดีกว่า” อีกต่อไป แต่คือการทำให้โมเดลเรียนรู้ที่จะเข้าใจอย่างแท้จริง: ผลลัพธ์นี้ดีแค่ไหน

เอกสารอ้างอิง:
[1] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166
[2] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068
[3] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653

— จบ —

เรากำลังรับสมัคร นักศึกษาฝึกงานบรรณาธิการวิชาการ ที่มีสายตาไวและสนใจ AI 🎓

ผู้สนใจสามารถดูรายละเอียดเพิ่มเติมได้ที่ 👉 了解详情

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง