กับดักของการกลั่นตัวเอง: ทำไม AI ที่ “ลอก” การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?
เมื่อ AI พยายามทำให้มีประสิทธิภาพมากขึ้นโดยการ “ลอก” กระบวนการคิดของตัวเอง มันอาจสูญเสียคุณสมบัติที่มีค่าที่สุดโดยไม่ตั้งใจ นั่นคือ การยอมรับว่า “ฉันอาจจะผิด”
ในสาขาปัญญาประดิษฐ์ แนวทางการฝึกหลังการฝึก (post-training paradigm) ที่เรียกว่า “การกลั่นตัวเอง” (Self-Distillation) กำลังเติบโตอย่างรวดเร็ว แนวคิดหลักมีความน่าสนใจอย่างมาก: ให้โมเดลทำหน้าที่เป็นครูเอง โดยใช้ข้อมูลบริบทที่สมบูรณ์กว่า (เช่น คำตอบมาตรฐาน) เพื่อสอนโมเดลนักเรียนให้สร้างคำตอบที่มีคุณภาพดีกว่าและกระชับกว่า
วิธีนี้ประสบความสำเร็จอย่างเห็นได้ชัดในหลายสาขา โดยเฉพาะในงานอย่างการถามตอบด้านเคมีและการสร้างโค้ด ซึ่งไม่เพียงแต่ช่วยเพิ่มประสิทธิภาพของโมเดลอย่างมีนัยสำคัญ แต่ยังช่วยลดความยาวของผลลัพธ์ได้อย่างมาก ทำให้เกิดการก้าวกระโดดสองเท่าในด้าน “เร็วขึ้นและแข็งแกร่งขึ้น” อย่างไรก็ตาม เมื่อเราหันมามองสาขาการให้เหตุผลทางคณิตศาสตร์ซึ่งต้องการตรรกะที่เข้มงวดและการคิดเชิงลึกมากขึ้น กลับพบความขัดแย้งที่น่าสับสนปรากฏขึ้น
ดังที่แสดงในรูปที่ 1 ในสาขาเคมี การกลั่นตัวเอง (ซึ่งแสดงด้วยอัลกอริทึม SDPO) เมื่อเทียบกับวิธี GRPO แบบดั้งเดิม ในขณะที่ลดความยาวของการตอบสนองลง คะแนนของโมเดลกลับเพิ่มขึ้นอย่างรวดเร็ว (รูปที่ 1a) แต่ในสาขาคณิตศาสตร์ วิธีเดียวกันกลับนำไปสู่ผลลัพธ์ที่ตรงกันข้าม: แม้ว่าความยาวของการตอบสนองจะลดลงอย่างต่อเนื่องระหว่างการฝึก ประสิทธิภาพของโมเดลกลับลดลงอย่างรวดเร็ว มากถึง 40% (รูปที่ 1b)

รูปที่ 1 (a) บันทึก Wandb ที่ใช้ SDPO เป็นฐาน การเปลี่ยนแปลงของคะแนนการฝึกและความยาวการตอบสนองระหว่าง GRPO กับการกลั่นตัวเอง (SDPO) ในสาขาเคมี; (b) การเปลี่ยนแปลงของคะแนนการฝึกและความยาวการตอบสนองระหว่าง GRPO กับ SDPO บนชุดข้อมูล DAPO-Math-17k
สิ่งนี้ทำให้เราตั้งคำถาม: ทำไมเป้าหมายการฝึกที่ดูสมบูรณ์แบบอย่าง “การเรียนรู้จากคำตอบที่ถูกต้อง” บางครั้งจึงให้ผลตรงกันข้าม และทำลายความสามารถในการให้เหตุผลหลักของโมเดล?
ทีมวิจัยจาก Microsoft Research ร่วมกับ KAIST และ Seoul National University ได้เปิดเผยความลับบางส่วนของปริศนานี้ในบทความวิจัยชื่อ “Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?” การค้นพบหลักของพวกเขาคือ: กระบวนการกลั่นตัวเองได้กดทับความสามารถของโมเดลในการ “แสดงออกทางภาษาเชิงญาณวิทยา” (Epistemic Verbalization) โดยไม่ตั้งใจ ซึ่งก็คือความสามารถของโมเดลในการแสดงออกถึงความไม่แน่ใจในระหว่างกระบวนการให้เหตุผล
เมื่อโมเดลครูได้รับ “ป้อน” คำตอบที่ถูกต้อง มันจะสร้างเส้นทางการให้เหตุผลที่มั่นใจเกินไปและกระชับ โมเดลนักเรียนเลียนแบบสไตล์นี้ และในที่สุดสิ่งที่เรียนรู้ไม่ใช่วิธีการคิด แต่เป็นวิธีการ “แสร้งทำเป็นรู้” เมื่อเผชิญกับปัญหาที่อยู่นอกการกระจาย (OOD) หรือปัญหาที่ซับซ้อนและไม่เคยเห็นมาก่อน สไตล์การให้เหตุผลที่ “มั่นใจแบบปลอม” นี้ก็เผยให้เห็นความเปราะบาง นำไปสู่การลดลงของประสิทธิภาพอย่างรุนแรง

รูปที่ 2 (a) กระบวนการให้เหตุผลที่มีการแสดงออกทางภาษาเชิงญาณวิทยา (b) การเปรียบเทียบรูปแบบการให้เหตุผลระหว่างการสร้างโดยไม่มีคำแนะนำกับการสร้างโดยมีครูแนะนำ
งานวิจัยนี้ไม่เพียงแต่เปิดเผยความเสี่ยงที่อาจเกิดขึ้นจากการกลั่นตัวเอง แต่ยังชี้ให้เห็นอย่างลึกซึ้งว่าในขณะที่มุ่งเน้นประสิทธิภาพของโมเดล เราต้องระวัง “การหล่อหลอมที่มองไม่เห็น” ต่อพฤติกรรมการให้เหตุผลของโมเดลด้วย บทความนี้จะตีความการค้นพบหลัก การออกแบบการทดลอง และความหมายต่ออนาคตของสาขา AI จากมุมมองของทฤษฎีสารสนเทศ
1. การกลั่นตัวเอง: แนวทาง “การเรียนรู้ด้วยตนเอง” ที่ดูสมบูรณ์แบบ
ก่อนที่จะเจาะลึกถึงปัญหา ให้เราทำความเข้าใจหลักการพื้นฐานของ “การกลั่นตัวเอง” ก่อน ต่างจากการกลั่นความรู้แบบดั้งเดิม (ซึ่งใช้โมเดลครูขนาดใหญ่และซับซ้อนเพื่อฝึกโมเดลนักเรียนที่เบากว่า) ในการกลั่นตัวเอง ครูและนักเรียนคือโมเดลเดียวกัน ความแตกต่างเพียงอย่างเดียวคือข้อมูลบริบทที่พวกเขาได้รับ
1.1 หลักการพื้นฐาน: การเรียนรู้ด้วยตนเองจากข้อมูลบริบท
จากปัญหาข้อมูลเข้า (x) โมเดลนักเรียน (pi_s) จะสร้างลำดับคำตอบ (y) ก่อน ส่วนโมเดลครูจะสร้างคำตอบภายใต้คำแนะนำของบริบทที่ “สมบูรณ์” กว่า (c) ซึ่ง (c) นี้สามารถรวมข้อมูลเพิ่มเติม เช่น คำตอบมาตรฐาน, ข้อเสนอแนะจากสภาพแวดล้อม เป็นต้น นั่นคือ (pi_t(y|x, c)) เป้าหมายของการฝึกคือทำให้การกระจายผลลัพธ์ของโมเดลนักเรียนเข้าใกล้การกระจายผลลัพธ์ของโมเดลครูให้มากที่สุด โดยการลดค่า KL divergence:
[
mathcal{L}{SD} = D{KL}(pi_s(y|x) parallel pi_t(y|x, c))
]
ความงดงามของสูตรนี้คือ มันทำให้โมเดลนักเรียนสามารถเลียนแบบวิธีการคิด “หลังจากเห็นคำตอบ” ได้ แม้จะไม่มีคำตอบที่ถูกต้อง ในทางปฏิบัติ อัลกอริทึมที่ใช้กันทั่วไป เช่น SDPO (Reinforcement Learning via Self-Distillation) ก็อิงตามแนวคิดนี้ โดยให้สัญญาณรางวัลจากการเปรียบเทียบความแตกต่างของผลลัพธ์ระหว่างโมเดลนักเรียนและครู เพื่อปรับปรุงโมเดล
1.2 รากของปัญหา: ความสมบูรณ์ของข้อมูลส่งผลต่อพฤติกรรมการให้เหตุผลอย่างไร?
แล้วกลไกที่ดูสมบูรณ์แบบนี้มีปัญหาอยู่ที่ไหน? ผู้เขียนได้สำรวจปัญหาสำคัญข้อหนึ่งก่อน: เมื่อโมเดลได้รับข้อมูลบริบทที่มีความสมบูรณ์ต่างกัน พฤติกรรมการให้เหตุผลของมันจะเปลี่ยนแปลงอย่างไร?
เพื่อตอบคำถามนี้ พวกเขาออกแบบการทดลองที่ชาญฉลาด บนโมเดล DeepSeek-R1-Distill-Qwen-7B พวกเขากำหนดเงื่อนไขการสร้างสี่แบบที่มีความสมบูรณ์ของข้อมูลเพิ่มขึ้นเรื่อยๆ และใช้ conditional mutual information (I(Y; C|X)) เพื่อวัดปริมาณข้อมูล:
1. การออกแบบการทดลอง: เงื่อนไขการสร้างสี่แบบที่มีความสมบูรณ์ของข้อมูลต่างกัน
เพื่อตรวจสอบว่าข้อมูลภายนอกส่งผลต่อการแสดงออกในการให้เหตุผลของโมเดลอย่างไร การวิจัยได้กำหนดเงื่อนไขการสร้างสี่แบบที่มีความสมบูรณ์ของข้อมูลเพิ่มขึ้นเรื่อยๆ:
- การสร้างโดยไม่มีคำแนะนำ: โมเดลสร้างคำตอบจากปัญหาเดิมเท่านั้น โดยไม่มีข้อมูลเพิ่มเติมใดๆ
- การสร้างโดยมีคำแนะนำแบบ “คำตอบ-ไม่มีเนื้อหาการคิด”: ให้โมเดลได้รับคำตอบสุดท้ายที่ถูกต้องหลังจากลบแท็กกระบวนการคิดออกแล้ว
- การสร้างโดยมีคำแนะนำแบบ “สร้างซ้ำ”: ให้โมเดลได้รับคำตอบในอดีตที่ถูกต้องซึ่งสร้างขึ้นภายใต้เงื่อนไข “คำแนะนำแบบคำตอบสมบูรณ์” เป็นข้อมูลอ้างอิง
- การสร้างโดยมีคำแนะนำแบบ “คำตอบสมบูรณ์”: ให้โมเดลได้รับคำตอบมาตรฐานที่ถูกต้องพร้อมกระบวนการคิดที่สมบูรณ์
จากมุมมองของทฤษฎีสารสนเทศ เงื่อนไขทั้งสี่แบบนี้มีปริมาณข้อมูลเพิ่มขึ้นตามลำดับ
ผลการทดลองแสดงให้เห็นว่า เมื่อความสมบูรณ์ของข้อมูลเพิ่มขึ้น ความยาวของคำตอบและจำนวน “การแสดงออกทางภาษาเชิงญาณวิทยา” ของโมเดลมีแนวโน้มลดลงอย่างต่อเนื่อง (ดูตารางที่ 1)

ตารางที่ 1: การเปรียบเทียบลักษณะการตอบสนองของโมเดลภายใต้เงื่อนไขการสร้างที่มีความสมบูรณ์ของข้อมูลต่างกัน ตารางนี้วัดคะแนน ความยาวการตอบสนอง และจำนวนเครื่องหมายเชิงญาณวิทยาของโมเดลภายใต้การตั้งค่าการสร้างสี่แบบ ยืนยันความสัมพันธ์เชิงลบระหว่างความสมบูรณ์ของข้อมูลกับการแสดงออกทางภาษาเชิงญาณวิทยา การสร้างโดยไม่มีคำแนะนำมีเครื่องหมายเชิงญาณวิทยาสูงถึง 182.5 ในขณะที่การสร้างโดยมีคำแนะนำแบบคำตอบสมบูรณ์มีเพียง 8.8 แต่คะแนนกลับใกล้เคียงกับคะแนนเต็ม สิ่งนี้บ่งชี้ว่าข้อมูลภายนอกทำให้โมเดล “มั่นใจเกินไป” และกดทับการแสดงออกถึงความไม่แน่ใจของมัน ผลลัพธ์นี้ให้หลักฐานเชิงประจักษ์พื้นฐานสำหรับการวิเคราะห์ในภายหลังว่าการกลั่นตัวเองทำให้ประสิทธิภาพลดลงในการให้เหตุผลทางคณิตศาสตร์เนื่องจากการเพิ่มขึ้นของข้อมูล และยังยืนยันว่าเครื่องหมายเชิงญาณวิทยาไม่ใช่สิ่งที่ซ้ำซ้อน แต่เป็นสัญญาณสำคัญของกระบวนการให้เหตุผล
หมายเหตุ: “การแสดงออกทางภาษาเชิงญาณวิทยา” ที่กล่าวถึงที่นี่ หมายถึง คำที่โมเดลใช้แสดงความไม่แน่ใจในการให้เหตุผล เช่น “wait”, “hmm”, “perhaps”, “maybe” เป็นต้น ผู้เขียนกำหนดชุดคำ 10 คำ (ดูรายละเอียดในรูปที่ 9) คำที่ดูเหมือนไม่สำคัญเหล่านี้ จากการวิจัยที่เกี่ยวข้องได้รับการพิสูจน์แล้วว่าเป็นสัญญาณสำคัญสำหรับโมเดลในการตรวจสอบและแก้ไขตัวเอง และการคิดเชิงสำรวจ

รูปที่ 9: การแยกย่อยการใช้เครื่องหมายเชิงญาณวิทยาตามโทเค็นภายใต้การตั้งค่าการสร้างสี่แบบ แต่ละแท่งแสดงถึงจำนวนครั้งเฉลี่ยที่เครื่องหมายเชิงญาณวิทยาแต่ละตัวปรากฏในแต่ละการตอบสนอง ความถี่ในการใช้เครื่องหมายทั้งหมดลดลงเมื่อความสมบูรณ์ของข้อมูลเพิ่มขึ้น โดยเครื่องหมายเช่น “wait”, “maybe”, “perhaps” มีการเปลี่ยนแปลงมากที่สุด การวิเคราะห์นี้แสดงให้เห็นว่าการเพิ่มขึ้นของข้อมูลที่กดทับการแสดงออกทางภาษาเชิงญาณวิทยาเป็นแบบทั่วโลก ไม่ได้จำกัดเฉพาะเครื่องหมายบางตัว จึงตัดความเป็นไปได้ที่ “เครื่องหมายเฉพาะบางตัวซ้ำซ้อน” และพิสูจน์ว่าเครื่องหมายเชิงญาณวิทยาทั้งหมดเป็นตัวนำการแสดงออกถึงความไม่แน่ใจของโมเดล
การค้นพบหลักข้อที่ 1: ยิ่งข้อมูลบริบทสมบูรณ์มากขึ้น ผลลัพธ์ของโมเดลก็ยิ่งกระชับและ “มั่นใจ” มากขึ้น แต่ในขณะเดียวกัน ความสามารถในการแสดงออกถึงความไม่แน่ใจก็ลดลงอย่างมีนัยสำคัญ
2. การกดทับความไม่แน่ใจ: ราคาจาก “การคิด” สู่ “การเลียนแบบ”
หลังจากพบปรากฏการณ์ดังกล่าวแล้ว ปัญหาหลักข้อหนึ่งตามมา: สไตล์ “มั่นใจ” นี้เป็นเพียงผิวเผิน หรือทำลายความสามารถในการให้เหตุผลของโมเดลจริงๆ?
เพื่อตอบคำถามนี้ ผู้เขียนได้ทำการทดลอง fine-tuning แบบมีผู้ดูแลที่สำคัญชุดหนึ่ง พวกเขาสร้างชุดข้อมูลสองชุด แต่ละชุดมีคำตอบที่ถูกต้อง 800 คำตอบ:
* ชุดข้อมูล A: สร้างจากคำตอบที่ได้จาก “การสร้างโดยไม่มีคำแนะนำ” มีลักษณะคือมีความยาวมากและเต็มไปด้วยการแสดงออกเชิงญาณวิทยา
* ชุดข้อมูล B: สร้างจากคำตอบที่ได้จาก “การสร้างโดยมีคำแนะนำแบบคำตอบสมบูรณ์” มีลักษณะคือสั้นกระชับและแทบไม่มีคำแสดงออกเชิงญาณวิทยา
ผลการทดลองน่าตกใจ (ดูตารางที่ 2)

ตารางที่ 2: การเปรียบเทียบประสิทธิภาพมาตรฐานทางคณิตศาสตร์ของโมเดลพื้นฐาน DeepSeek-R1-Distill-Qwen-7B และโมเดลที่ผ่าน fine-tuning บนชุดข้อมูลแบบไม่มีคำแนะนำและแบบคำตอบสมบูรณ์ ตารางแสดงให้เห็นว่าหลังจาก fine-tuning บนชุดข้อมูล B (คำตอบสมบูรณ์) ประสิทธิภาพของโมเดลในมาตรฐานคณิตศาสตร์ต่างๆ ลดลงอย่างรวดเร็ว (เช่น คะแนน AIME24 ลดจาก 54.79 เหลือ 20.21) ในขณะที่ fine-tuning บนชุดข้อมูล A (ไม่มีคำแนะนำ) ประสิทธิภาพยังคงมีเสถียรภาพ สิ่งนี้บ่งชี้ว่า แม้ข้อมูลการฝึกจะเป็นเส้นทางการให้เหตุผลที่ถูกต้อง การบังคับให้กดทับการแสดงออกทางภาษาเชิงญาณวิทยาและให้โมเดลเรียนรู้สไตล์ “มั่นใจเกินไป” ก็จะทำลายความสามารถในการสำรวจด้วยตนเองและการแก้ไขข้อผิดพลาดอย่างรุนแรง จึงทำให้ความสามารถในการให้เหตุผลที่แท้จริงอ่อนแอลง
การค้นพบหลักข้อที่ 2: ในการ fine-tuning แบบมีผู้ดูแล แม้จะใช้เส้นทางที่ถูกต้องในการฝึก การกดทับการแสดงออกเชิงญาณวิทยาอย่างมากเกินไปก็จะทำลายประสิทธิภาพการให้เหตุผลของโมเดลอย่างรุนแรง
3. การกลั่นตัวเองแบบออนไลน์: วงจรข้อเสนอแนะเกี่ยวกับ “ความมั่นใจ”
ต่อไป การวิจัยหันไปสู่สถานการณ์การกลั่นตัวเองแบบออนไลน์ที่พบได้บ่อยกว่า โดยเปรียบเทียบประสิทธิภาพของอัลกอริทึม GRPO และ SDPO บนชุดข้อมูลคณิตศาสตร์ และใช้โมเดลพื้นฐานสามแบบที่แตกต่างกัน
3.1 “ความเปราะบาง” ของโมเดลที่แตกต่างกัน
1. DeepSeek-R1-Distill-Qwen-7B (โมเดลที่มีความสามารถในการให้เหตุผลสูง)
* การฝึกด้วย GRPO ช่วยเพิ่มประสิทธิภาพของโมเดลเล็กน้อย และเพิ่มความยาวการตอบสนองและเครื่องหมายเชิงญาณวิทยาเล็กน้อย
* อย่างไรก็ตาม SDPO นำไปสู่การลดลงทั้งประสิทธิภาพและการใช้เครื่องหมายเชิงญาณวิทยา โดยเฉพาะอย่างยิ่งเมื่อโมเดลครูให้คำตอบที่สมบูรณ์ซึ่งมีข้อมูลมาก ความแม่นยำของ AIME24 ลดลงประมาณ 40% สิ่งนี้ยืนยันความสัมพันธ์เชิงบวกระหว่างการแสดงออกทางภาษาเชิงญาณวิทยากับประสิทธิภาพการให้เหตุผลทางคณิตศาสตร์

รูปที่ 3: ผลลัพธ์การกลั่นตัวเองแบบออนไลน์ของ DeepSeek-R1-Distill-Qwen-7B
2. Qwen3-8B (เปิดโหมดการคิด)
* โมเดลนี้มีระดับการแสดงออกเชิงญาณวิทยาเริ่มต้นสูง GRPO ลดการแสดงออกเชิงญาณวิทยาบางส่วนอย่างนุ่มนวล แต่ประสิทธิภาพยังคงมีเสถียรภาพ
* SDPO กดทับอย่างรุนแรงกว่า
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/27891
