นักวิจัยจากมหาวิทยาลัยฟู่ตั้น มหาวิทยาลัยเซี่ยงไฮ้เจียวทง และห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ ร่วมกันดำเนินงานนี้ ผู้เขียนคนแรกคือ เจียง ซูหยาง เป็นนักศึกษาปริญญาเอกที่ร่วมฝึกอบรมระหว่างมหาวิทยาลัยฟู่ตั้นและห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ ปัจจุบันดำรงตำแหน่งนักวิจัยฝึกหัดในห้องปฏิบัติการ ภายใต้การดูแลของศาสตราจารย์หวัง ยวี่ และศาสตราจารย์จาง หย่า จากคณะปัญญาประดิษฐ์ มหาวิทยาลัยเซี่ยงไฮ้เจียวทง
โมเดลการให้เหตุผลขนาดใหญ่ เช่น DeepSeek-R1 และ OpenAI GPT Thinking แสดงประสิทธิภาพที่ยอดเยี่ยมในงานให้เหตุผลที่ซับซ้อนต่างๆ ด้วย “ห่วงโซ่ความคิด” ที่ยาวหลายพันโทเคน อย่างไรก็ตาม โมเดลเหล่านี้มีปัญหาหลักร่วมกันคือ “การคิดมากเกินไป” (overthinking): แม้จะได้คำตอบที่ถูกต้องแล้ว โมเดลยังคงแสดงการแก้ไขตนเองและการแสดงออกย้อนกลับ เช่น “wait…” “let me check…” “alternatively…” ซ้ำๆ ในกระบวนการให้เหตุผล ส่งผลให้เกิดการคำนวณที่ซ้ำซ้อนและค่าใช้จ่ายในการคำนวณที่ไร้ความหมาย
ปรากฏการณ์นี้ได้รับความสนใจอย่างกว้างขวางจากทั้งแวดวงวิชาการและอุตสาหกรรม วิธีแก้ปัญหาที่ตรงไปตรงมาคือการนำ “กลไกการลงโทษสำหรับการให้เหตุผลที่ยาว” มาใช้ กล่าวคือ การเพิ่มรางวัลการลงโทษตามความยาวสำหรับลำดับการให้เหตุผลที่ยาวเกินไปในการฝึกอบรมด้วยการเรียนรู้แบบเสริมกำลัง เพื่อกระตุ้นให้โมเดลสร้างเส้นทางการให้เหตุผลที่สั้นลง
แต่ในทางปฏิบัติต้องเผชิญกับความท้าทายที่สำคัญ: เมื่อเพิ่มความรุนแรงของการลงโทษ โมเดลมักจะละเว้นขั้นตอนการให้เหตุผลที่จำเป็น ส่งผลให้ประสิทธิภาพลดลงอย่างเห็นได้ชัด ในขณะที่การลดความรุนแรงของการลงโทษ การให้เหตุผลที่ซ้ำซ้อนยังคงอยู่ ทำให้ประสิทธิภาพยากที่จะปรับปรุง ดังนั้นจึงเป็นเรื่องยากที่จะบรรลุความสมดุลที่มีประสิทธิภาพระหว่างประสิทธิภาพในการให้เหตุผลและประสิทธิผล
ในบทความ Oral ของ ICLR 2026 ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้น มหาวิทยาลัยเซี่ยงไฮ้เจียวทง และห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ ได้เปิดเผยข้อจำกัดพื้นฐานของกลยุทธ์ “การลงโทษตามความยาว” ในเชิงทฤษฎีเป็นครั้งแรก และ在此基础上เสนอกรอบการฝึกอบรมใหม่ DECS ในการทดสอบมาตรฐานภายในโดเมน 5 รายการและภายนอกโดเมน 2 รายการ DECS บรรลุผลลัพธ์ที่โดดเด่นในการลดความยาวของการให้เหตุผลลงมากกว่า 50% ในขณะที่ความแม่นยำของโมเดลกลับเพิ่มขึ้นแทนที่จะลดลง

- ที่อยู่บทความ: https://openreview.net/forum?id=kdeiRledV6
- ที่อยู่โครงการ: https://pixas.github.io/decs-iclr26-site/
ทำไมการลงโทษตามความยาวถึง “ทำร้ายคนดี” เสมอ?
ทีมวิจัยได้ทำการวิเคราะห์เชิงทฤษฎีอย่างลึกซึ้งเกี่ยวกับกลไกการลงโทษตามความยาวลำดับในกรอบการเรียนรู้แบบเสริมกำลังหลัก (เช่น GRPO) โดยมีหลักฐานที่เกี่ยวข้องในบทความต้นฉบับ ผลสรุปเผยให้เห็นข้อบกพร่องร้ายแรงสองประการที่ไม่เคยถูกชี้ให้เห็นอย่างเป็นระบบมาก่อน:
ข้อบกพร่องที่หนึ่ง: การโจมตีโทเคนการสำรวจที่มีเอนโทรปีสูงโดยไม่เลือกปฏิบัติ โทเคนที่มีเอนโทรปีสูง เช่น “wait” “however” “alternatively” ที่โมเดลสร้างขึ้นในกระบวนการให้เหตุผล โดยพื้นฐานแล้วคือ “การเปลี่ยนสถานะ” ที่เชื่อมโยงตรรกะ ซึ่งเป็นพฤติกรรมการสำรวจที่จำเป็นในการหาคำตอบที่ถูกต้อง อย่างไรก็ตาม การลงโทษตามความยาวในระดับลำดับไม่แยกแยะประเภทของโทเคน โทเคนทั้งหมดในห่วงโซ่การให้เหตุผลที่ยาวและถูกต้องจะได้รับสัญญาณเกรเดียนต์เชิงลบอย่างสม่ำเสมอ เมื่อข้อมูลการฝึกอบรมมีโจทย์ง่ายเป็นส่วนใหญ่ และความยาวของคำตอบในแต่ละโจทย์แตกต่างกันมาก การกดทับโทเคนที่มีเอนโทรปีสูงนี้จะสะสมมากขึ้นเรื่อยๆ ในที่สุดทำให้โมเดลสูญเสียความสามารถในการสำรวจและบรรจบกันก่อนเวลาอันควรไปสู่นโยบายที่ด้อยกว่า
ข้อบกพร่องที่สอง: “รางวัลแฝง” สำหรับความซ้ำซ้อนเฉพาะที่ ทีมวิจัยได้นำเสนอแนวคิดที่สำคัญอย่างยิ่ง นั่นคือ คำนำหน้าการให้เหตุผลที่จำเป็น (Necessary Reasoning Prefix, NRP) ซึ่งเป็นลำดับโทเคนที่สั้นที่สุดตั้งแต่เริ่มต้นการให้เหตุผลจนถึงการได้คำตอบที่ถูกต้องครั้งแรก โทเคนทั้งหมดที่เกินจาก NRP ถือเป็นความซ้ำซ้อนโดยพื้นฐาน อย่างไรก็ตาม ในกลไกการให้รางวัลตามลำดับที่มีอยู่ คำตอบที่สั้นกว่าซึ่งมี NRP อยู่แล้ว โทเคนที่ซ้ำซ้อนหลังจาก NRP อาจยังคงได้รับรางวัลเชิงบวก เนื่องจากลำดับทั้งหมดค่อนข้างสั้นเมื่อเทียบกับกลุ่ม สัญญาณ “รางวัลสำหรับความซ้ำซ้อน” นี้บิดเบือนทิศทางการปรับให้เหมาะสมอย่างรุนแรง ทำให้โมเดลไม่เรียนรู้ที่จะหยุดเมื่อควรหยุด

รูปที่ 1: ผลข้างเคียงสองประการของการลงโทษตามความยาวลำดับ
DECS: การ “แยกส่วน” ครั้งเดียวรักษาอาการคิดมากเกินไปได้อย่างไร
จากข้อค้นพบเชิงทฤษฎีทั้งสองนี้ DECS ได้ปรับโครงสร้างกระบวนการฝึกอบรมใหม่อย่างแม่นยำในสองมิติ:
ขั้นตอนที่หนึ่ง: แยกรางวัลระดับโทเคน ระบุและลงโทษความซ้ำซ้อนอย่างแม่นยำ
ทีมวิจัยได้ฝึกอบรมตัวตรวจจับ NRP (โมเดลผู้ตัดสิน) ที่มีน้ำหนักเบา เพื่อระบุตำแหน่งโทเคนทั้งหมดในห่วงโซ่การให้เหตุผลตั้งแต่เริ่มต้นจนถึง “บล็อก” แรกที่มีคำตอบที่ถูกต้อง เมื่อกำหนดขอบเขตของ NRP ได้แล้ว DECS จะ “แยกส่วน” ฟังก์ชันรางวัล: โทเคนการให้เหตุผลที่จำเป็นภายในขอบเขต NRP จะไม่ถูกลงโทษเลย ในขณะที่โทเคนการให้เหตุผลที่ซ้ำซ้อนทุกตัวที่ปรากฏหลังจาก NRP จะได้รับรางวัลเชิงลบคงที่
ด้วยการแยกโทเคนที่จำเป็นและโทเคนที่ซ้ำซ้อน อัลกอริทึมช่วยให้แน่ใจว่าโมเดลถูกห้ามเฉพาะ “การเพิ่มสิ่งที่ไม่จำเป็น” เท่านั้น ไม่ใช่การคิดอย่างไร้ประสิทธิภาพในทุกขั้นตอนของการให้เหตุผล แต่ไม่ส่งผลกระทบต่อความสามารถของโมเดลในการได้คำตอบที่ถูกต้องผ่านการไตร่ตรองและการให้เหตุผลที่หลากหลาย
ขั้นตอนที่สอง: การจัดตารางแบทช์แบบหลักสูตร ปกป้องความสามารถในการสำรวจไม่ให้เสียหาย
แม้การลงโทษความซ้ำซ้อนจะตรงไปตรงมา แต่ก็มีความกังวลแฝงอยู่: ในช่วงต้นของการฝึกอบรม สัญญาณการลงโทษอาจส่งผลกระทบโดยไม่ได้ตั้งใจต่อโทเคนที่มีเอนโทรปีสูงซึ่งดูเหมือนซ้ำซ้อน แต่จริงๆ แล้วเป็นการสำรวจ วิธีการของ DECS คือการปรับสัดส่วนของโจทย์ง่ายในแบทช์การฝึกอบรมแบบไดนามิก: เมื่อสัดส่วน NRP เฉลี่ยของโมเดลในปัจจุบันต่ำ (กล่าวคือ ยังมีความซ้ำซ้อนอยู่มาก) ก็จะใส่โจทย์ง่ายน้อยลง เมื่อการฝึกอบรมดำเนินไปและความซ้ำซ้อนค่อยๆ ลดลง ก็จะค่อยๆ เพิ่มสัดส่วนของโจทย์ง่าย
กลยุทธ์การจัดตารางข้อมูลแบบหลักสูตรนี้โดยพื้นฐานแล้วเป็นกลไกบัฟเฟอร์ เพื่อให้แน่ใจว่าความซ้ำซ้อนถูกบีบอัดอย่างเพียงพอ ในขณะเดียวกันก็ให้พื้นที่สำรวจเพียงพอแก่โมเดล หลีกเลี่ยงไม่ให้การลงโทษแบบ “เหมารวม” ฆ่าความหลากหลายของการให้เหตุผล

รูปที่ 2: แผนภาพการฝึกอบรม DECS
การทดลองยืนยัน: ความยาวการให้เหตุผลลดลงครึ่งหนึ่งในหลายชุดข้อมูล ประสิทธิภาพกลับเพิ่มขึ้น
การทดลองครอบคลุมโมเดลฐานหลักสามรุ่น ได้แก่ DeepSeek-R1-Distill-1.5B, 7B และ Qwen3-4B โดยทำการประเมินอย่างเป็นระบบในเกณฑ์มาตรฐานทางคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรมเจ็ดรายการ รวมถึง AIME2024/2025, MATH500, GPQA-Diamond, LiveCodeBench-v6
ผลลัพธ์น่าประทับใจ: ในโมเดล 1.5B DECS ลดจำนวนโทเคนการให้เหตุผลเฉลี่ยลง 57.17% ในขณะที่ความแม่นยำ Pass@1 เพิ่มขึ้น 2.48 จุดเปอร์เซ็นต์ ในโมเดล 7B ที่โตเต็มที่กว่า แม้ว่าโมเดลจะมีการคิดมากเกินไปในระดับที่น้อยกว่า DECS ก็ยังลดโทเคนการคิดลง 49.50% พร้อมกับเพิ่มความแม่นยำ 0.8 จุดเปอร์เซ็นต์ ในการเปรียบเทียบกับวิธีพื้นฐานหลัก เช่น ThinkPrune, TLMRE, LC-R1 DECS มีคะแนน AES (ตัวชี้วัดประสิทธิภาพ-ประสิทธิผลรวม) สูงกว่าอย่างมีนัยสำคัญที่ 0.12 และ 0.14 ตามลำดับ
ที่สำคัญยิ่งกว่าคือความสามารถในการสรุปข้ามโดเมน: ตัวตรวจจับ NRP ของ DECS ฝึกอบรมด้วยคลังข้อมูลทางคณิตศาสตร์เท่านั้น แต่ข้อได้เปรียบด้านประสิทธิภาพได้ถ่ายโอนไปยังการให้เหตุผลทางวิทยาศาสตร์ (GPQA-Diamond, ลดโทเคน 56.33%) และงานเขียนโปรแกรม (LiveCodeBench-v6, ลดโทเคน 33.52%) อย่างมีประสิทธิภาพ
สิ่งนี้ยืนยันข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้น: การคิดมากเกินไปเป็นปรากฏการณ์เชิงระบบข้ามโดเมน และกลไกของ DECS นั้นเป็นพื้นฐานพอที่จะปลดปล่อยโมเดลจากการให้เหตุผลที่ซ้ำซ้อนได้โดยไม่เลือกปฏิบัติ

ตารางที่ 1: การเปรียบเทียบประสิทธิภาพของ DECS
การทดลองการตัดออก (Ablation study) ยืนยันความสัมพันธ์เสริมกันของสององค์ประกอบหลัก: เมื่อนำการจัดตารางแบบหลักสูตรออก โมเดลแสดงการเสื่อมประสิทธิภาพอย่างมีนัยสำคัญพร้อมกับการบีบอัดการให้เหตุผล ซึ่งยืนยันปัญหาการยับยั้งการสำรวจที่เปิดเผยในบทความ ในขณะที่การนำรางวัลแบบแยกส่วนออกเพียงอย่างเดียว โมเดลยังคงมีโทเคนที่ซ้ำซ้อนประมาณ 25% ซึ่งสนับสนุนข้อสรุปว่ารางวัลระดับลำดับไม่สามารถกำจัดความซ้ำซ้อนทั้งหมดได้

รูปที่ 3: การเปรียบเทียบการทดลองการตัดออก: รางวัลแบบแยกส่วนและการจัดตารางแบบหลักสูตรมีความสำคัญทั้งคู่
ความหมายและข้อคิด
คุณค่าหลักของงาน DECS ไม่ได้อยู่ที่ตัวชี้วัดการบีบอัดที่แทบไม่สูญเสีย แต่เป็นคำถามที่มันตั้งขึ้นและข้อสรุปที่พิสูจน์ได้จากมุมมองเชิงทฤษฎี
ปัจจุบัน อุตสาหกรรมมุ่งเน้นไปที่ “วิธีทำให้โมเดลคิดได้ดีขึ้น” เป็นส่วนใหญ่ แต่มีการวิจัยเพียงเล็กน้อยที่ตอบคำถามพื้นฐานสองข้อจากมุมมองเชิงระบบและทฤษฎี: “อะไรที่ไม่ควรค่าแก่การคิด?” และ “เมื่อใดควรหยุดคิด?”
DECS ผ่านการวิเคราะห์เชิงทฤษฎีที่เข้มงวดและการทดลองที่มั่นคง พิสูจน์ว่าอุปสรรคที่แท้จริงของการให้เหตุผลที่มีประสิทธิภาพไม่ใช่ขีดจำกัดความสามารถของโมเดล แต่อยู่ที่การออกแบบเป้าหมายการฝึกอบรมที่ละเอียดอ่อน
สำหรับผู้ที่กำลังประสบปัญหาต้นทุนสูงและความล่าช้าของโมเดลการให้เหตุผลขนาดใหญ่ DECS นำเสนอโซลูชันทางเทคนิคแบบโอเพนซอร์สที่สมบูรณ์ โดยไม่ต้องเสียสละความแม่นยำ โดยโค้ดที่เกี่ยวข้องได้เปิดเผยบน GitHub แล้ว
ในขณะเดียวกัน การที่ DECS ได้รับการคัดเลือกเป็น Oral ใน ICLR 2026 ยืนยันเพิ่มเติมว่า: เพื่อบรรเทาปัญหา “การคิดมากเกินไป” อย่างรุนแรง การปรับให้เหมาะสมต้องกลับไปที่แก่นของฟังก์ชันรางวัล เริ่มจากกลไกพื้นฐานของเกรเดียนต์นโยบาย เพื่อกำจัดโทเคนการให้เหตุผลที่ซ้ำซ้อนตั้งแต่ต้นตอ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34318
