กับดักของการกลั่นตัวเอง: ทำไม AI ‘ลอก’ การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?

2026年3月30日 am11:20 • การฝึกโมเดลขนาดใหญ่ • 214 views

กับดักของการกลั่นตัวเอง: ทำไม AI ที่ “ลอก” การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?

เมื่อ AI พยายามทำให้มีประสิทธิภาพมากขึ้นโดยการ “ลอก” กระบวนการคิดของตัวเอง มันอาจสูญเสียคุณสมบัติที่มีค่าที่สุดโดยไม่ตั้งใจ นั่นคือ การยอมรับว่า “ฉันอาจจะผิด”

ในสาขาปัญญาประดิษฐ์ แนวทางการฝึกหลังการฝึก (post-training paradigm) ที่เรียกว่า “การกลั่นตัวเอง” (Self-Distillation) กำลังเติบโตอย่างรวดเร็ว แนวคิดหลักมีความน่าสนใจอย่างมาก: ให้โมเดลทำหน้าที่เป็นครูเอง โดยใช้ข้อมูลบริบทที่สมบูรณ์กว่า (เช่น คำตอบมาตรฐาน) เพื่อสอนโมเดลนักเรียนให้สร้างคำตอบที่มีคุณภาพดีกว่าและกระชับกว่า

วิธีนี้ประสบความสำเร็จอย่างเห็นได้ชัดในหลายสาขา โดยเฉพาะในงานอย่างการถามตอบด้านเคมีและการสร้างโค้ด ซึ่งไม่เพียงแต่ช่วยเพิ่มประสิทธิภาพของโมเดลอย่างมีนัยสำคัญ แต่ยังช่วยลดความยาวของผลลัพธ์ได้อย่างมาก ทำให้เกิดการก้าวกระโดดสองเท่าในด้าน “เร็วขึ้นและแข็งแกร่งขึ้น” อย่างไรก็ตาม เมื่อเราหันมามองสาขาการให้เหตุผลทางคณิตศาสตร์ซึ่งต้องการตรรกะที่เข้มงวดและการคิดเชิงลึกมากขึ้น กลับพบความขัดแย้งที่น่าสับสนปรากฏขึ้น

ดังที่แสดงในรูปที่ 1 ในสาขาเคมี การกลั่นตัวเอง (ซึ่งแสดงด้วยอัลกอริทึม SDPO) เมื่อเทียบกับวิธี GRPO แบบดั้งเดิม ในขณะที่ลดความยาวของการตอบสนองลง คะแนนของโมเดลกลับเพิ่มขึ้นอย่างรวดเร็ว (รูปที่ 1a) แต่ในสาขาคณิตศาสตร์ วิธีเดียวกันกลับนำไปสู่ผลลัพธ์ที่ตรงกันข้าม: แม้ว่าความยาวของการตอบสนองจะลดลงอย่างต่อเนื่องระหว่างการฝึก ประสิทธิภาพของโมเดลกลับลดลงอย่างรวดเร็ว มากถึง 40% (รูปที่ 1b)

กับดักของการกลั่นตัวเอง: ทำไม AI 'ลอก' การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?
รูปที่ 1 (a) บันทึก Wandb ที่ใช้ SDPO เป็นฐาน การเปลี่ยนแปลงของคะแนนการฝึกและความยาวการตอบสนองระหว่าง GRPO กับการกลั่นตัวเอง (SDPO) ในสาขาเคมี; (b) การเปลี่ยนแปลงของคะแนนการฝึกและความยาวการตอบสนองระหว่าง GRPO กับ SDPO บนชุดข้อมูล DAPO-Math-17k

สิ่งนี้ทำให้เราตั้งคำถาม: ทำไมเป้าหมายการฝึกที่ดูสมบูรณ์แบบอย่าง “การเรียนรู้จากคำตอบที่ถูกต้อง” บางครั้งจึงให้ผลตรงกันข้าม และทำลายความสามารถในการให้เหตุผลหลักของโมเดล?

ทีมวิจัยจาก Microsoft Research ร่วมกับ KAIST และ Seoul National University ได้เปิดเผยความลับบางส่วนของปริศนานี้ในบทความวิจัยชื่อ “Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?” การค้นพบหลักของพวกเขาคือ: กระบวนการกลั่นตัวเองได้กดทับความสามารถของโมเดลในการ “แสดงออกทางภาษาเชิงญาณวิทยา” (Epistemic Verbalization) โดยไม่ตั้งใจ ซึ่งก็คือความสามารถของโมเดลในการแสดงออกถึงความไม่แน่ใจในระหว่างกระบวนการให้เหตุผล

เมื่อโมเดลครูได้รับ “ป้อน” คำตอบที่ถูกต้อง มันจะสร้างเส้นทางการให้เหตุผลที่มั่นใจเกินไปและกระชับ โมเดลนักเรียนเลียนแบบสไตล์นี้ และในที่สุดสิ่งที่เรียนรู้ไม่ใช่วิธีการคิด แต่เป็นวิธีการ “แสร้งทำเป็นรู้” เมื่อเผชิญกับปัญหาที่อยู่นอกการกระจาย (OOD) หรือปัญหาที่ซับซ้อนและไม่เคยเห็นมาก่อน สไตล์การให้เหตุผลที่ “มั่นใจแบบปลอม” นี้ก็เผยให้เห็นความเปราะบาง นำไปสู่การลดลงของประสิทธิภาพอย่างรุนแรง

กับดักของการกลั่นตัวเอง: ทำไม AI 'ลอก' การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?
รูปที่ 2 (a) กระบวนการให้เหตุผลที่มีการแสดงออกทางภาษาเชิงญาณวิทยา (b) การเปรียบเทียบรูปแบบการให้เหตุผลระหว่างการสร้างโดยไม่มีคำแนะนำกับการสร้างโดยมีครูแนะนำ

งานวิจัยนี้ไม่เพียงแต่เปิดเผยความเสี่ยงที่อาจเกิดขึ้นจากการกลั่นตัวเอง แต่ยังชี้ให้เห็นอย่างลึกซึ้งว่าในขณะที่มุ่งเน้นประสิทธิภาพของโมเดล เราต้องระวัง “การหล่อหลอมที่มองไม่เห็น” ต่อพฤติกรรมการให้เหตุผลของโมเดลด้วย บทความนี้จะตีความการค้นพบหลัก การออกแบบการทดลอง และความหมายต่ออนาคตของสาขา AI จากมุมมองของทฤษฎีสารสนเทศ

1. การกลั่นตัวเอง: แนวทาง “การเรียนรู้ด้วยตนเอง” ที่ดูสมบูรณ์แบบ

ก่อนที่จะเจาะลึกถึงปัญหา ให้เราทำความเข้าใจหลักการพื้นฐานของ “การกลั่นตัวเอง” ก่อน ต่างจากการกลั่นความรู้แบบดั้งเดิม (ซึ่งใช้โมเดลครูขนาดใหญ่และซับซ้อนเพื่อฝึกโมเดลนักเรียนที่เบากว่า) ในการกลั่นตัวเอง ครูและนักเรียนคือโมเดลเดียวกัน ความแตกต่างเพียงอย่างเดียวคือข้อมูลบริบทที่พวกเขาได้รับ

1.1 หลักการพื้นฐาน: การเรียนรู้ด้วยตนเองจากข้อมูลบริบท

จากปัญหาข้อมูลเข้า (x) โมเดลนักเรียน (pi_s) จะสร้างลำดับคำตอบ (y) ก่อน ส่วนโมเดลครูจะสร้างคำตอบภายใต้คำแนะนำของบริบทที่ “สมบูรณ์” กว่า (c) ซึ่ง (c) นี้สามารถรวมข้อมูลเพิ่มเติม เช่น คำตอบมาตรฐาน, ข้อเสนอแนะจากสภาพแวดล้อม เป็นต้น นั่นคือ (pi_t(y|x, c)) เป้าหมายของการฝึกคือทำให้การกระจายผลลัพธ์ของโมเดลนักเรียนเข้าใกล้การกระจายผลลัพธ์ของโมเดลครูให้มากที่สุด โดยการลดค่า KL divergence:

[
mathcal{L}{SD} = D{KL}(pi_s(y|x) parallel pi_t(y|x, c))
]

ความงดงามของสูตรนี้คือ มันทำให้โมเดลนักเรียนสามารถเลียนแบบวิธีการคิด “หลังจากเห็นคำตอบ” ได้ แม้จะไม่มีคำตอบที่ถูกต้อง ในทางปฏิบัติ อัลกอริทึมที่ใช้กันทั่วไป เช่น SDPO (Reinforcement Learning via Self-Distillation) ก็อิงตามแนวคิดนี้ โดยให้สัญญาณรางวัลจากการเปรียบเทียบความแตกต่างของผลลัพธ์ระหว่างโมเดลนักเรียนและครู เพื่อปรับปรุงโมเดล

1.2 รากของปัญหา: ความสมบูรณ์ของข้อมูลส่งผลต่อพฤติกรรมการให้เหตุผลอย่างไร?

แล้วกลไกที่ดูสมบูรณ์แบบนี้มีปัญหาอยู่ที่ไหน? ผู้เขียนได้สำรวจปัญหาสำคัญข้อหนึ่งก่อน: เมื่อโมเดลได้รับข้อมูลบริบทที่มีความสมบูรณ์ต่างกัน พฤติกรรมการให้เหตุผลของมันจะเปลี่ยนแปลงอย่างไร?

เพื่อตอบคำถามนี้ พวกเขาออกแบบการทดลองที่ชาญฉลาด บนโมเดล DeepSeek-R1-Distill-Qwen-7B พวกเขากำหนดเงื่อนไขการสร้างสี่แบบที่มีความสมบูรณ์ของข้อมูลเพิ่มขึ้นเรื่อยๆ และใช้ conditional mutual information (I(Y; C|X)) เพื่อวัดปริมาณข้อมูล:

1. การออกแบบการทดลอง: เงื่อนไขการสร้างสี่แบบที่มีความสมบูรณ์ของข้อมูลต่างกัน

เพื่อตรวจสอบว่าข้อมูลภายนอกส่งผลต่อการแสดงออกในการให้เหตุผลของโมเดลอย่างไร การวิจัยได้กำหนดเงื่อนไขการสร้างสี่แบบที่มีความสมบูรณ์ของข้อมูลเพิ่มขึ้นเรื่อยๆ:

การสร้างโดยไม่มีคำแนะนำ: โมเดลสร้างคำตอบจากปัญหาเดิมเท่านั้น โดยไม่มีข้อมูลเพิ่มเติมใดๆ
การสร้างโดยมีคำแนะนำแบบ “คำตอบ-ไม่มีเนื้อหาการคิด”: ให้โมเดลได้รับคำตอบสุดท้ายที่ถูกต้องหลังจากลบแท็กกระบวนการคิดออกแล้ว
การสร้างโดยมีคำแนะนำแบบ “สร้างซ้ำ”: ให้โมเดลได้รับคำตอบในอดีตที่ถูกต้องซึ่งสร้างขึ้นภายใต้เงื่อนไข “คำแนะนำแบบคำตอบสมบูรณ์” เป็นข้อมูลอ้างอิง
การสร้างโดยมีคำแนะนำแบบ “คำตอบสมบูรณ์”: ให้โมเดลได้รับคำตอบมาตรฐานที่ถูกต้องพร้อมกระบวนการคิดที่สมบูรณ์

จากมุมมองของทฤษฎีสารสนเทศ เงื่อนไขทั้งสี่แบบนี้มีปริมาณข้อมูลเพิ่มขึ้นตามลำดับ

ผลการทดลองแสดงให้เห็นว่า เมื่อความสมบูรณ์ของข้อมูลเพิ่มขึ้น ความยาวของคำตอบและจำนวน “การแสดงออกทางภาษาเชิงญาณวิทยา” ของโมเดลมีแนวโน้มลดลงอย่างต่อเนื่อง (ดูตารางที่ 1)

กับดักของการกลั่นตัวเอง: ทำไม AI 'ลอก' การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?
ตารางที่ 1: การเปรียบเทียบลักษณะการตอบสนองของโมเดลภายใต้เงื่อนไขการสร้างที่มีความสมบูรณ์ของข้อมูลต่างกัน ตารางนี้วัดคะแนน ความยาวการตอบสนอง และจำนวนเครื่องหมายเชิงญาณวิทยาของโมเดลภายใต้การตั้งค่าการสร้างสี่แบบ ยืนยันความสัมพันธ์เชิงลบระหว่างความสมบูรณ์ของข้อมูลกับการแสดงออกทางภาษาเชิงญาณวิทยา การสร้างโดยไม่มีคำแนะนำมีเครื่องหมายเชิงญาณวิทยาสูงถึง 182.5 ในขณะที่การสร้างโดยมีคำแนะนำแบบคำตอบสมบูรณ์มีเพียง 8.8 แต่คะแนนกลับใกล้เคียงกับคะแนนเต็ม สิ่งนี้บ่งชี้ว่าข้อมูลภายนอกทำให้โมเดล “มั่นใจเกินไป” และกดทับการแสดงออกถึงความไม่แน่ใจของมัน ผลลัพธ์นี้ให้หลักฐานเชิงประจักษ์พื้นฐานสำหรับการวิเคราะห์ในภายหลังว่าการกลั่นตัวเองทำให้ประสิทธิภาพลดลงในการให้เหตุผลทางคณิตศาสตร์เนื่องจากการเพิ่มขึ้นของข้อมูล และยังยืนยันว่าเครื่องหมายเชิงญาณวิทยาไม่ใช่สิ่งที่ซ้ำซ้อน แต่เป็นสัญญาณสำคัญของกระบวนการให้เหตุผล

หมายเหตุ: “การแสดงออกทางภาษาเชิงญาณวิทยา” ที่กล่าวถึงที่นี่ หมายถึง คำที่โมเดลใช้แสดงความไม่แน่ใจในการให้เหตุผล เช่น “wait”, “hmm”, “perhaps”, “maybe” เป็นต้น ผู้เขียนกำหนดชุดคำ 10 คำ (ดูรายละเอียดในรูปที่ 9) คำที่ดูเหมือนไม่สำคัญเหล่านี้ จากการวิจัยที่เกี่ยวข้องได้รับการพิสูจน์แล้วว่าเป็นสัญญาณสำคัญสำหรับโมเดลในการตรวจสอบและแก้ไขตัวเอง และการคิดเชิงสำรวจ

กับดักของการกลั่นตัวเอง: ทำไม AI 'ลอก' การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?
รูปที่ 9: การแยกย่อยการใช้เครื่องหมายเชิงญาณวิทยาตามโทเค็นภายใต้การตั้งค่าการสร้างสี่แบบ แต่ละแท่งแสดงถึงจำนวนครั้งเฉลี่ยที่เครื่องหมายเชิงญาณวิทยาแต่ละตัวปรากฏในแต่ละการตอบสนอง ความถี่ในการใช้เครื่องหมายทั้งหมดลดลงเมื่อความสมบูรณ์ของข้อมูลเพิ่มขึ้น โดยเครื่องหมายเช่น “wait”, “maybe”, “perhaps” มีการเปลี่ยนแปลงมากที่สุด การวิเคราะห์นี้แสดงให้เห็นว่าการเพิ่มขึ้นของข้อมูลที่กดทับการแสดงออกทางภาษาเชิงญาณวิทยาเป็นแบบทั่วโลก ไม่ได้จำกัดเฉพาะเครื่องหมายบางตัว จึงตัดความเป็นไปได้ที่ “เครื่องหมายเฉพาะบางตัวซ้ำซ้อน” และพิสูจน์ว่าเครื่องหมายเชิงญาณวิทยาทั้งหมดเป็นตัวนำการแสดงออกถึงความไม่แน่ใจของโมเดล

การค้นพบหลักข้อที่ 1: ยิ่งข้อมูลบริบทสมบูรณ์มากขึ้น ผลลัพธ์ของโมเดลก็ยิ่งกระชับและ “มั่นใจ” มากขึ้น แต่ในขณะเดียวกัน ความสามารถในการแสดงออกถึงความไม่แน่ใจก็ลดลงอย่างมีนัยสำคัญ

2. การกดทับความไม่แน่ใจ: ราคาจาก “การคิด” สู่ “การเลียนแบบ”

หลังจากพบปรากฏการณ์ดังกล่าวแล้ว ปัญหาหลักข้อหนึ่งตามมา: สไตล์ “มั่นใจ” นี้เป็นเพียงผิวเผิน หรือทำลายความสามารถในการให้เหตุผลของโมเดลจริงๆ?

เพื่อตอบคำถามนี้ ผู้เขียนได้ทำการทดลอง fine-tuning แบบมีผู้ดูแลที่สำคัญชุดหนึ่ง พวกเขาสร้างชุดข้อมูลสองชุด แต่ละชุดมีคำตอบที่ถูกต้อง 800 คำตอบ:
* ชุดข้อมูล A: สร้างจากคำตอบที่ได้จาก “การสร้างโดยไม่มีคำแนะนำ” มีลักษณะคือมีความยาวมากและเต็มไปด้วยการแสดงออกเชิงญาณวิทยา
* ชุดข้อมูล B: สร้างจากคำตอบที่ได้จาก “การสร้างโดยมีคำแนะนำแบบคำตอบสมบูรณ์” มีลักษณะคือสั้นกระชับและแทบไม่มีคำแสดงออกเชิงญาณวิทยา

ผลการทดลองน่าตกใจ (ดูตารางที่ 2)

กับดักของการกลั่นตัวเอง: ทำไม AI 'ลอก' การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?
ตารางที่ 2: การเปรียบเทียบประสิทธิภาพมาตรฐานทางคณิตศาสตร์ของโมเดลพื้นฐาน DeepSeek-R1-Distill-Qwen-7B และโมเดลที่ผ่าน fine-tuning บนชุดข้อมูลแบบไม่มีคำแนะนำและแบบคำตอบสมบูรณ์ ตารางแสดงให้เห็นว่าหลังจาก fine-tuning บนชุดข้อมูล B (คำตอบสมบูรณ์) ประสิทธิภาพของโมเดลในมาตรฐานคณิตศาสตร์ต่างๆ ลดลงอย่างรวดเร็ว (เช่น คะแนน AIME24 ลดจาก 54.79 เหลือ 20.21) ในขณะที่ fine-tuning บนชุดข้อมูล A (ไม่มีคำแนะนำ) ประสิทธิภาพยังคงมีเสถียรภาพ สิ่งนี้บ่งชี้ว่า แม้ข้อมูลการฝึกจะเป็นเส้นทางการให้เหตุผลที่ถูกต้อง การบังคับให้กดทับการแสดงออกทางภาษาเชิงญาณวิทยาและให้โมเดลเรียนรู้สไตล์ “มั่นใจเกินไป” ก็จะทำลายความสามารถในการสำรวจด้วยตนเองและการแก้ไขข้อผิดพลาดอย่างรุนแรง จึงทำให้ความสามารถในการให้เหตุผลที่แท้จริงอ่อนแอลง

การค้นพบหลักข้อที่ 2: ในการ fine-tuning แบบมีผู้ดูแล แม้จะใช้เส้นทางที่ถูกต้องในการฝึก การกดทับการแสดงออกเชิงญาณวิทยาอย่างมากเกินไปก็จะทำลายประสิทธิภาพการให้เหตุผลของโมเดลอย่างรุนแรง

3. การกลั่นตัวเองแบบออนไลน์: วงจรข้อเสนอแนะเกี่ยวกับ “ความมั่นใจ”

ต่อไป การวิจัยหันไปสู่สถานการณ์การกลั่นตัวเองแบบออนไลน์ที่พบได้บ่อยกว่า โดยเปรียบเทียบประสิทธิภาพของอัลกอริทึม GRPO และ SDPO บนชุดข้อมูลคณิตศาสตร์ และใช้โมเดลพื้นฐานสามแบบที่แตกต่างกัน

3.1 “ความเปราะบาง” ของโมเดลที่แตกต่างกัน

1. DeepSeek-R1-Distill-Qwen-7B (โมเดลที่มีความสามารถในการให้เหตุผลสูง)
* การฝึกด้วย GRPO ช่วยเพิ่มประสิทธิภาพของโมเดลเล็กน้อย และเพิ่มความยาวการตอบสนองและเครื่องหมายเชิงญาณวิทยาเล็กน้อย
* อย่างไรก็ตาม SDPO นำไปสู่การลดลงทั้งประสิทธิภาพและการใช้เครื่องหมายเชิงญาณวิทยา โดยเฉพาะอย่างยิ่งเมื่อโมเดลครูให้คำตอบที่สมบูรณ์ซึ่งมีข้อมูลมาก ความแม่นยำของ AIME24 ลดลงประมาณ 40% สิ่งนี้ยืนยันความสัมพันธ์เชิงบวกระหว่างการแสดงออกทางภาษาเชิงญาณวิทยากับประสิทธิภาพการให้เหตุผลทางคณิตศาสตร์

กับดักของการกลั่นตัวเอง: ทำไม AI 'ลอก' การคิดของตัวเองจึงทำลายความสามารถในการให้เหตุผลทางคณิตศาสตร์?
รูปที่ 3: ผลลัพธ์การกลั่นตัวเองแบบออนไลน์ของ DeepSeek-R1-Distill-Qwen-7B

2. Qwen3-8B (เปิดโหมดการคิด)
* โมเดลนี้มีระดับการแสดงออกเชิงญาณวิทยาเริ่มต้นสูง GRPO ลดการแสดงออกเชิงญาณวิทยาบางส่วนอย่างนุ่มนวล แต่ประสิทธิภาพยังคงมีเสถียรภาพ
* SDPO กดทับอย่างรุนแรงกว่า

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/27891

Like (0)

0 0

Generate poster

ลิลลี่เดิมพัน 2.75 พันล้านดอลลาร์ใน AI ด้านเภสัชกรรม: ช่วงเวลาของ GPT สำหรับบริษัทยาแบบดั้งเดิมมาถึงแล้ว?
Previous 2026年3月30日 am11:15

DeepSeek ล่ม 8 ชั่วโมง สัญญาณก่อนอัปเกรด? ความสามารถโมเดลเปลี่ยนแปลงฉับพลันจุดกระแสถกเถียงทั่วเน็ต
Next 2026年3月30日 am11:22

相关推荐

 การฝึกโมเดลขนาดใหญ่

OpenClaw-RL: กรอบงานโอเพนซอร์สที่ทำให้ AI ฉลาดขึ้นเรื่อยๆ ทีมดุษฎีบัณฑิตจากมหาวิทยาลัยปักกิ่งไขปริศนาการฝึกฝนเอเจนต์ AI

ตลอดสัปดาห์ที่ผ่านมา เอไอเอเจนต์รูปการ์ตูนกุ้งมังกรสีแดงชื่อ OpenClaw ได้รับความสนใจอย่างกว้างขวาง ประสบการณ์การใช้เอไอเอเจนต์ที่สามารถทำงานเฉพาะเจาะจงนี้ค่อนข้างน่าตื่นเต้น: ตั้งแ…

2026年3月16日
223000

การฝึกโมเดลขนาดใหญ่

FlashAttention-4 เปิดตัวอย่างน่าตื่นเต้น: ความเร็วของกลไกความสนใจบน GPU Blackwell เทียบเท่ากับการคูณเมทริกซ์ เพิ่มประสิทธิภาพสูงสุดถึง 2.7 เท่า

หลังจากพัฒนามาเป็นเวลาหนึ่งปี FlashAttention-4 ได้เปิดตัวอย่างเป็นทางการแล้ว ในฐานะเทคโนโลยีการปรับปรุงประสิทธิภาพระดับล่างที่สำคัญในสาขา Deep Learning FlashAttention ได้รับการอัปเ…

2026年3月6日
293000

การฝึกโมเดลขนาดใหญ่

ทีม Tsinghua คลายปริศนา FlashAttention การฝึกฝนความแม่นยำต่ำ: ความเอนเอียงเชิงตัวเลขภายใต้ BF16 กระตุ้นการฝึกโมเดลขนาดใหญ่

สรุปสั้นๆ: ปรากฏการณ์ “ลึกลับ” ที่สร้างความสับสนให้กับชุมชนมาหลายปีในที่สุดก็ได้รับการคลี่คลาย: ในการฝึกฝนด้วยความแม่นยำต่ำเช่น BF16 FlashAttention ไม่ได้เกิดข้อผิดพลาด…

2026年3月4日
282000

การฝึกโมเดลขนาดใหญ่

คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ

Claude แฮ็ก Apple Neural Engine! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ค่าใช้จ่ายร่วงเหลือแค่เศษเสี้ยวของค่าไฟ (1/2) สรุปสาระสำคัญ นักพัฒนาประสบความสำเร็จในการย้อนวิศวกรรม (Reverse…

2026年3月8日
296000

Python MoE Training Framework Pith-Train: หนึ่งหมื่นบรรทัดโค้ดที่ผสานการทำงานแบบสี่มิติและการควอนไทซ์ FP8 ทำลายทางเลือกระหว่างประสิทธิภาพระดับโปรดักชั่นกับความสามารถในการอ่านโค้ด

ระบบฝึกอบรมโมเดลขนาดใหญ่มักเปรียบเสมือนโรงงานปิด: สายการผลิต โทโพโลยีการสื่อสาร การกำหนดเส้นทางผู้เชี่ยวชาญ การใช้หน่วยความจำซ้ำ การฝึกแบบผสมความแม่นยำ และการกู้คืนจุดตรวจ ล้วนทำงา…

การฝึกโมเดลขนาดใหญ่ 2026年5月2日
67000