พลิกโฉมการควบคุมความยาว! โมเดล LenVM 3B เอาชนะ GPT-5.4 ด้วยความแม่นยำ การฝึกอบรมเชิงคุณค่าเปิดมิติใหม่

4 days ago • วิศวกรรมโมเดลขนาดใหญ่ • 52 views

ปฏิวัติการควบคุมความยาว! โมเดล LenVM 3B มีความแม่นยำเหนือกว่า GPT-5.4 เปิดมิติใหม่ของการฝึกอบรมล่วงหน้าเชิงคุณค่า

การสร้างแบบจำลองความยาวในระดับ token LenVM เปิดมิติใหม่ของการฝึกอบรมล่วงหน้าเชิงคุณค่าที่ขยายได้—โมเดลโอเพนซอร์ส 3B ของมันเหนือกว่าโมเดลปิดชั้นนำอย่าง GPT-5.4 และ Claude-Opus-4-6 ในการควบคุมความยาวที่แม่นยำอย่างสมบูรณ์ ภายใต้งบประมาณ token เดียวกัน ความแม่นยำในการอนุมานเพิ่มขึ้นจาก 6% เป็น 63% ซึ่งเพิ่มขึ้นมากกว่า 10 เท่า พร้อมกันนี้ยังแสดงคุณสมบัติการปรับขนาด (scaling) ที่ไม่อิ่มตัวในสามมิติ ได้แก่ ขนาดโมเดล ปริมาณข้อมูล และจำนวนการสุ่มตัวอย่าง

Token เป็นหน่วยการคำนวณพื้นฐานที่สุดในโมเดล autoregressive สมัยใหม่ การสร้าง token แต่ละครั้งหมายถึงการ forward propagation หนึ่งครั้ง ค่าใช้จ่าย KV cache หนึ่งครั้ง ความหน่วงที่สะสม และต้นทุนพลังงานที่แน่นอน ด้วยความนิยมของ long-CoT และ agentic workflow ความยาวในการสร้างจึงกลายเป็นตัวแปรหลักของปัจจัยสำคัญสองประการ: มันเป็นทั้งปัจจัยกำหนดต้นทุนการอนุมาน และส่งผลอย่างลึกซึ้งต่อคุณภาพการอนุมาน—token ที่มากขึ้นหมายถึงพื้นที่การคิดที่กว้างขึ้น แต่การสร้างที่มากเกินไปจะทำให้เกิดการสิ้นเปลืองทรัพยากร

วิธีการควบคุมความยาวที่มีอยู่ในปัจจุบันล้วนมีข้อบกพร่องพื้นฐาน: หยาบเกินไป การเพิ่มโทษในระดับลำดับ (sequence-level penalty) ในระหว่างการฝึก โมเดลไม่มีความรู้สึกว่า “เหลืออีกเท่าไหร่” ในระหว่างการสร้าง การใช้คำสั่ง prompt โดยพื้นฐานแล้วเป็นการ “อ้อนวอน” ให้โมเดลปฏิบัติตาม โดยไม่มีข้อจำกัดที่แข็งแกร่งใดๆ ตัวทำนายความยาวล่วงหน้า (pre-decoding length predictor) สามารถทำการตัดสินใจเพียงครั้งเดียว ไม่สามารถปรับเปลี่ยนแบบไดนามิกในระหว่างการสร้างได้ ข้อจำกัดร่วมกันของพวกมันคือ: การดำเนินการทั้งหมดหยุดอยู่ที่ระดับลำดับ ในขณะที่กระบวนการถอดรหัสเกิดขึ้นทีละ token—กรอบงานที่มีอยู่ไม่เคยสร้างแบบจำลองความยาวที่เหลือในระดับความละเอียดนี้

ในระดับที่ลึกขึ้น ฟังก์ชันคุณค่า (value function) ได้รับการพิสูจน์แล้วใน reinforcement learning ว่าเป็นเครื่องมือที่ทรงพลังสำหรับการสร้างแบบจำลอง “ผลตอบแทนในอนาคต” แต่ความยาวไม่เคยถูกมองว่าเป็นปริมาณของฟังก์ชันคุณค่า—ทั้งไม่มีกระบวนทัศน์การฝึกอบรมที่สอดคล้อง และไม่มีเส้นทางการปรับขนาด (scaling path) ที่ได้รับการตรวจสอบ

พลิกโฉมการควบคุมความยาว! โมเดล LenVM 3B เอาชนะ GPT-5.4 ด้วยความแม่นยำ การฝึกอบรมเชิงคุณค่าเปิดมิติใหม่

ทีมวิจัยจาก UC Santa Barbara และ Apple เสนอ Length Value Model (LenVM) ซึ่งแก้ปัญหาหลักสองประการพร้อมกัน:

① จะทำการสร้างแบบจำลองความยาวในระดับ token ได้อย่างไร?

เปลี่ยนการสร้างแบบจำลองความยาวในการสร้างเป็นปัญหาของ การประมาณค่า (value estimation) ใน reinforcement learning: กำหนดรางวัลติดลบคงที่ให้กับ token ที่สร้างแต่ละตัว จากนั้นสะสมด้วยส่วนลด (discount) เพื่อให้ได้สัญญาณตัวแทนแบบโมโนโทนิกที่มีขอบเขตของ “ความยาวที่เหลือในการสร้าง” ด้วยวิธีนี้ โมเดลจะได้รับการประมาณค่าเชิงปริมาณที่ชัดเจนของ “เหลืออีกไกลแค่ไหน” ในทุกขั้นตอนการถอดรหัส

② จะบรรลุการฝึกอบรมล่วงหน้าเชิงคุณค่าที่ขยายได้ (scalable value pretraining) ได้อย่างไร?

โครงสร้างนี้มีคุณสมบัติสี่ประการที่เป็นมิตรอย่างยิ่งต่อการฝึกอบรมล่วงหน้าขนาดใหญ่โดยธรรมชาติ: ไม่ต้องมีคำอธิบายประกอบ (annotation-free), สัญญาณหนาแน่น (dense), ไม่เอนเอียง (unbiased), และขยายได้ (scalable)

ซึ่งหมายความว่าการฝึกอบรมของ LenVM โดยพื้นฐานแล้วเป็น กระบวนการกำกับตนเอง (self-supervised process)—ไม่จำเป็นต้องมีคำอธิบายประกอบด้วยมนุษย์หรือโมเดลรางวัลเพิ่มเติมใดๆ เช่นเดียวกับการฝึกอบรมโมเดลภาษาล่วงหน้า เพียงแค่ “ป้อนข้อมูล” ก็สามารถแข็งแกร่งขึ้นอย่างต่อเนื่อง

บทความ: https://arxiv.org/abs/2604.27039

โค้ด: https://github.com/eric-ai-lab/Length-Value-Model

หน้าโครงการ: https://length-value-model.github.io/

Demo: https://length-value-model.github.io/demo/index.html

รายละเอียดแนวทางทางเทคนิค

แนวคิดหลัก: ทำให้ความยาวที่เหลือกลายเป็นฟังก์ชันคุณค่า

แนวคิดหลักของ LenVM นั้นเรียบง่ายและสง่างาม: ถือว่าความยาวในการสร้างเป็นต้นทุนชนิดหนึ่ง โดยการกำหนดรางวัลติดลบคงที่ให้กับแต่ละ token ความยาวที่เหลือก็จะกลายเป็นปัญหาการทำนายฟังก์ชันคุณค่าโดยธรรมชาติ

โดยเฉพาะอย่างยิ่ง สำหรับแต่ละขั้นตอนการถอดรหัสที่ไม่ใช่จุดสิ้นสุด t ให้กำหนดรางวัลติดลบคงที่:

ผลตอบแทนแบบส่วนลดที่สอดคล้องกันคือ:

โดยที่ L คือความยาวรวมของลำดับ γ∈(0,1) คือปัจจัยส่วนลด ผลตอบแทนนี้มีคุณสมบัติสำคัญสามประการ:

มีขอบเขต:

ไม่ว่าลำดับจะยาวแค่ไหน ค่าเป้าหมายจะอยู่ในช่วงคงที่เสมอ**

โมโนโทนิก: ยิ่งใกล้จุดสิ้นสุด ค่ายิ่งใกล้ 0; ยิ่งเหลือมาก ค่ายิ่งใกล้ -1 ค่าจะเข้ารหัสโดยตรงว่าต้องเดินอีกไกลแค่ไหน
สอดคล้องกับ Bellman: เป็นไปตาม

สอดคล้องกับกรอบฟังก์ชันคุณค่ามาตรฐานอย่างสมบูรณ์

ส่วนที่เหลือ TD ในระดับ token ที่กำหนดโดย

วัดโดยตรงว่า token ปัจจุบันเปลี่ยนแปลงความคาดหวังเกี่ยวกับความยาวที่เหลือในการสร้างอย่างไร —นี่คือสัญญาณที่ไม่เคยมีมาก่อน

ทำไมไม่ทำนายจำนวน token ดิบโดยตรง?

ความยาวในการสร้างมีตั้งแต่ไม่กี่ token ไปจนถึง 32k ซึ่งมีช่วงไดนามิกที่กว้างมาก ทำให้ยากต่อการถดถอยโดยตรง การแปลงผลตอบแทนแบบส่วนลดจะแมปความยาวดิบที่แปรผันสูงไปยังช่วงคงที่ (-1, 0) ในขณะที่ยังคงความโมโนโทนิกอย่างเคร่งครัด ปัจจัยส่วนลด γ คือปุ่มปรับความละเอียด: γ ที่ใหญ่ขึ้นจะให้ความละเอียดสูงขึ้นในช่วงต้นของการสร้าง γ ที่เล็กลงจะละเอียดขึ้นเมื่อใกล้จุดสิ้นสุด

การฝึกอบรมล่วงหน้าเชิงคุณค่าที่ขยายได้: ไม่ต้องมีคำอธิบายประกอบ, การปรับขนาดสามแกน

นี่คือข้อได้เปรียบหลักที่ทำให้ LenVM แตกต่างจากวิธีการควบคุมความยาวที่มีอยู่ทั้งหมด และเป็นสิ่งที่ควรค่าแก่การสังเกตมากที่สุดในงานนี้

ขีดจำกัดขนาดของโมเดลคุณค่าแบบดั้งเดิมถูกล็อกด้วยต้นทุนและคุณภาพของคำอธิบายประกอบ LenVM หลีกเลี่ยงคอขวดเหล่านี้โดยสิ้นเชิง เป้าหมายการฝึกอบรมประกอบด้วยค่าเฉลี่ยความคลาดเคลื่อนกำลังสองในระดับ token:

นี่คือการถดถอยแบบ Monte Carlo ที่ตำแหน่ง token แต่ละตำแหน่งในลำดับ โดยใช้ความยาวที่เหลือแบบส่วนลดที่สังเกตได้จริงที่ตำแหน่งนั้น

สัญญาณการกำกับดูแลถูกสร้างขึ้นโดยอัตโนมัติจาก completion ที่สุ่มตัวอย่าง โดยมีคุณสมบัติสำคัญสี่ประการ:

การทดลองยืนยันว่า LenVM ปรับขนาดพร้อมกันตาม สามแกน:

ขนาดโมเดล (0.5B → 32B): โมเดลที่ใหญ่ขึ้นจะให้การสูญเสียการตรวจสอบที่ต่ำลงเสมอ
จำนวน prompt ฝึก (10k → 100k): การครอบคลุมข้อมูลที่กว้างขึ้นช่วยปรับปรุงคุณภาพการสร้างแบบจำลองความยาวอย่างต่อเนื่อง
จำนวนตัวอย่างต่อ prompt (n=1 → n=16): เส้นทางการ completion ที่มากขึ้นนำไปสู่การกำกับดูแลที่แข็งแกร่งขึ้น

ทั้งสามแกนแสดงแนวโน้มการลดลงแบบโมโนโทนิก ซึ่งบ่งชี้ว่า LenVM ในฐานะเป้าหมายการฝึกอบรมล่วงหน้าเชิงคุณค่านั้น ถูกกำหนดไว้อย่างดี (well-posed): ไม่มีความอิ่มตัวของข้อมูล ยิ่งลงทุนทรัพยากรมาก ความสามารถในการสร้างแบบจำลองความยาวก็จะยิ่งแข็งแกร่งขึ้น

สามการประยุกต์ใช้ในระหว่างการอนุมานและผลการทดลอง

สัญญาณความยาวในระดับ token ที่ LenVM เรียนรู้นั้นดีแค่ไหน? ทีมผู้เขียนตรวจสอบผ่านการประยุกต์ใช้สามรูปแบบในระหว่างการอนุมาน การประยุกต์ใช้ทั้งหมดไม่แก้ไขโมเดลการสร้างพื้นฐาน

การประยุกต์ใช้ที่หนึ่ง: การควบคุมความยาวที่แม่นยำ

ในแต่ละขั้นตอนการถอดรหัส LenVM จะทำนายค่าของสถานะถัดไปสำหรับ token ที่เป็นตัวเลือกทีละตัว และเลือก token ตามนั้น: Equal To เลือก token ที่มีค่าทำนายใกล้เคียงกับผลตอบแทนแบบส่วนลดเป้าหมายมากที่สุด; At Most เลือก token ที่มีค่ามากที่สุด (ใกล้ 0) เพื่อนำไปสู่การยุติก่อนกำหนด; At Least เลือก token ที่มีค่าน้อยที่สุด (ใกล้ -1) เพื่อนำไปสู่การสร้างต่อเนื่อง นี่คือ ข้อจำกัดแข็งในระดับ token อย่างแท้จริง ไม่ใช่ “การอ้อนวอน” แบบหยาบ

บนเกณฑ์มาตรฐาน LIFEBench (ประกอบด้วยคำถาม-คำตอบ สรุปความ การอนุมาน การเขียนเชิงสร้างสรรค์ อย่างละ 180 รายการทั้งภาษาไทยและอังกฤษ) Qwen2.5-3B + LenVM (1.5B) มีคะแนนความยาวเพิ่มขึ้นจาก 25.6 เป็น 62.6 ค่าเบี่ยงเบนความยาวลดลงจาก 83% เหลือ 56% นำหน้าโมเดลปิดทั้งหมดอย่าง GPT-5.4 (37.4), Claude-Opus-4-6 (35.5), Gemini-3.1-Pro (49.3) อย่างมาก; Qwen2.5-7B + LenVM ก้าวไปอีกขั้น โดยได้คะแนน 64.8 โดยมีค่าเบี่ยงเบนเพียง 44%

ไม่ว่าโมเดลปิดจะแข็งแกร่งแค่ไหน การควบคุมแบบหยาบตาม prompt ก็มีขีดจำกัดตามธรรมชาติ—LenVM ให้ข้อจำกัดที่แม่นยำซึ่งมีผลในทุกขั้นตอนการถอดรหัส

การประยุกต์ใช้ที่สอง: การแลกเปลี่ยนระหว่างประสิทธิภาพและประสิทธิผลอย่างต่อเนื่อง

ผ่านการเอียงแบบเอกซ์โปเนนเชียล (exponential tilting) LenVM จะถ่วงน้ำหนักการกระจาย token ของโมเดลพื้นฐานใหม่อย่างนุ่มนวล:

เมื่อ คาดว่า token ที่สั้นกว่าจะมีความน่าจะเป็นสูงกว่า

จะลดรูปเป็นโมเดลดั้งเดิม นี่คือ ปุ่มปรับแบบต่อเนื่อง ที่แลกเปลี่ยนระหว่างคุณภาพการอนุมานและการใช้ token อย่างราบรื่น

ในการทดสอบ GSM8K เมื่อกำหนดงบประมาณ token ที่ 200 คะแนน Pass@1 ของเส้นพื้นฐานการตัดแบบแข็ง (hard truncation) อยู่ที่ประมาณ 6% ในขณะที่คะแนน Pass@1 ของการถอดรหัสที่นำโดย LenVM อยู่ที่ประมาณ 63% ซึ่งช่องว่างระหว่างทั้งสองสูงถึง 10 เท่า ผลลัพธ์นี้เปิดเผยข้อเท็จจริงสำคัญ: โมเดลพื้นฐานมีความสามารถในการแก้ปัญหาด้วยเส้นทางที่สั้นกว่าอยู่แล้ว แต่โดยปกติแล้วไม่สามารถเลือกเส้นทางเหล่านี้ได้โดยอัตโนมัติ—LenVM ผ่านกลไกการถ่วงน้ำหนักที่ละเอียดอ่อน ได้ “ขุด” เส้นทางเหล่านี้ออกจากโมเดล ในชุดข้อมูล MATH500 และ MathVista (การให้เหตุผลทางคณิตศาสตร์เชิงภาพ) ประสิทธิภาพของ LenVM ก็ดีกว่าเส้นพื้นฐานการตัดแบบแข็งในทุกด้านเช่นกัน โดยวาดขอบเขต Pareto อย่างราบรื่นเมื่อค่า β เปลี่ยนแปลง

การประยุกต์ใช้ที่สาม: การทำนายความยาวในการสร้าง

LenVM สามารถทำนายความยาวในการสร้างทั้งหมดได้ตั้งแต่ที่ขอบเขตของ prompt (ก่อนที่ token การตอบสนองแรกจะถูกสร้างขึ้น) ซึ่งมีคุณค่าโดยตรงต่อการจัดกลุ่มแบบแบตช์ของระบบอนุมาน การจัดสรร KV cache ล่วงหน้า และการจัดลำดับความสำคัญของคำขอ—ในขณะที่ข้อมูลประเภทนี้ปัจจุบันสามารถรับได้หลังจากถอดรหัสเสร็จสิ้นเท่านั้น ในสาขาคณิตศาสตร์ ค่าความคลาดเคลื่อนสัมพัทธ์เฉลี่ย (MRE) ของโมเดล 32B ลดลงเหลือเพียง 9.8% ในสาขาโค้ดคือ 14.9% ในสาขาการทำตามคำสั่งคือ 17.1% และตัวบ่งชี้นี้ยังคงปรับปรุงอย่างต่อเนื่องเมื่อขนาดโมเดลเพิ่มขึ้น

ข้อค้นพบเพิ่มเติม: token ใดที่ “ขยาย” หรือ “สรุป” การอนุมาน?

ส่วนที่เหลือ TD ในระดับ token ของ LenVM ยังให้มุมมองการสังเกตที่ไม่เคยมีมาก่อน

Token ที่ขยายการอนุมาน (

) ได้แก่ wait, but, ah, think, consider เป็นต้น ซึ่งโดยทั่วไปสอดคล้องกับการพลิกผันและการไตร่ตรองในระหว่างกระบวนการอนุมาน โดยที่ ah ปรากฏบ่อยครั้งใน ช่วงเวลาแห่งการหยั่งรู้ (Aha Moment) เช่น “Ah! I see the mistake”;

Token ที่สรุปการอนุมาน (

) ได้แก่ therefore, clearly, perfect และเครื่องหมายสิ้นสุดเช่น ✅ 🎉 ซึ่งสอดคล้องกับการยืนยันคำตอบและการสิ้นสุดการสร้าง LenVM ไม่เพียงแต่เป็นสัญญาณควบคุมเท่านั้น แต่ยังเป็น หน้าต่างใหม่สำหรับสังเกตว่าโมเดลให้เหตุผลอย่างไร

สรุป

การมีส่วนร่วมของ LenVM สามารถเข้าใจได้ในสองระดับ

ต่อการสร้างแบบจำลองความยาว: มันผลักดันระดับการควบคุมจากระดับลำดับไปสู่ระดับ token ทำให้ทุกขั้นตอนการถอดรหัสมี “การรับรู้ความยาวที่เหลือ” ที่ชัดเจน สิ่งนี้ทำลายเพดานร่วมของวิธีการที่มีอยู่ทั้งหมด—ไม่ว่าจะเป็นการควบคุมด้วย prompt การลงโทษในการฝึก หรือตัวทำนายก่อนถอดรหัส ต่างก็ไม่สามารถให้สัญญาณข้อจำกัดแบบไดนามิกทีละ token ได้ โมเดลโอเพนซอร์ส 3B เอาชนะ GPT-5.4 และ Claude-Opus-4-6 ในการควบคุมความยาวที่แม่นยำ ไม่ใช่เพราะ “ปรับ prompt ได้ดี” แต่เป็นเพราะมันมีสัญญาณความยาวในระดับ token อย่างแท้จริงเป็นครั้งแรก

ต่อการปรับขนาด (Scaling): ความยาวในฐานะฟังก์ชันคุณค่า เป้าหมายการฝึกอบรมของมันปราศจากคำอธิบายประกอบโดยธรรมชาติ สัญญาณหนาแน่น และขยายได้สามแกน กฎการปรับขนาดสอดคล้องอย่างมากกับการฝึกอบรมโมเดลภาษาล่วงหน้า สิ่งนี้พิสูจน์ว่า ความยาวในการสร้างเป็นมิติใหม่ของการฝึกอบรมล่วงหน้าเชิงคุณค่าที่ขยายได้—ไม่จำเป็นต้องมีคำอธิบายประกอบเพิ่มเติม เพียงแค่การคำนวณและข้อมูลที่มากขึ้น ความสามารถในการสร้างแบบจำลองความยาวก็จะเพิ่มขึ้นอย่างต่อเนื่อง

ในขณะเดียวกัน LenVM ยังเป็นเส้นฐานคุณค่าเฉพาะด้านความยาวสำหรับการฝึก RL ในอนาคต: สามารถใช้เป็นสัญญาณข้อได้เปรียบที่หนาแน่นใน PPO หรือผ่านการปรับรูปร่างรางวัลด้วยฟังก์ชันศักย์ เพื่อปรับปรุงการจัดสรรเครดิตโดยไม่เปลี่ยนเป้าหมายของงาน

ความยาวในการสร้างไม่ควรเป็นเพียงตัวเลขที่คำนวณได้ภายหลัง มันควรเป็นสัญญาณที่โมเดลสามารถรับรู้และชั่งน้ำหนักได้ในทุกขั้นตอนการถอดรหัส—เช่นเดียวกับที่โมเดลรับรู้ความหมายและไวยากรณ์ LenVM ทำให้สิ่งนี้เป็นไปได้เป็นครั้งแรก

เอกสารอ้างอิง:
https://arxiv.org/abs/2604.27039

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง