เผยแพร่เอกสารทางเทคนิค GLM-5 อย่างสมบูรณ์
เอกสารทางเทคนิคเบื้องหลัง GLM-5 ได้รับการเผยแพร่อย่างสมบูรณ์แล้ว

ชื่อเอกสารได้ระบุถึงข้อเสนอหลักอย่างชัดเจน: ลาก่อน Vibe Coding ยินดีต้อนรับสู่ วิศวกรรมเอเจนต์ (Agentic Engineering)
ดังที่เห็นจากการทดสอบจริงก่อนหน้านี้ GLM-5 สามารถรันโค้ดอย่างต่อเนื่องได้ด้วยตนเองนานกว่า 24 ชั่วโมง ดำเนินการเรียกใช้เครื่องมือกว่า 700 ครั้ง และสลับคอนเท็กซ์มากกว่า 800 ครั้ง แม้กระทั่งสร้างตัวจำลอง Game Boy Advance (GBA) ตั้งแต่เริ่มต้น
กล่าวโดยสรุป GLM-5 ได้นำ AI แบบโอเพ่นซอร์สเข้าสู่ยุคของงานระยะยาว
ชุมชนต่างประเทศตอบรับอย่างกระตือรือร้น มีความคิดเห็นว่า “GLM-5 คือโมเดลโอเพ่นซอร์สที่ดีที่สุด”:

และเชื่อว่า “ช่วยลดช่องว่างกับ Claude Opus 4.6 ได้อย่างมาก”:

เอกสารยาว 40 หน้า ฉบับนี้ ได้เปิดเผยรายละเอียดทางเทคนิคเบื้องหลัง GLM-5 อย่างครอบคลุม จุดเด่นหลักมีดังนี้:
- ด้านสถาปัตยกรรม: บนพื้นฐานของความสามารถ ARC (เอเจนต์, การให้เหตุผล และการเขียนโปรแกรม) และสถาปัตยกรรม MoE ที่ได้รับการพิสูจน์แล้วในรุ่นก่อนหน้า ได้นำกลไกความสนใจแบบเบาบางแบบไดนามิก (DSA) แบบเดียวกับ DeepSeek มาใช้; ในขณะที่ลดต้นทุนลงอย่างมาก ความสามารถด้านคอนเท็กซ์ยาวยังคงได้รับการรักษาไว้อย่างครบถ้วน
- ด้านการฝึกหลัง: สร้างโครงสร้างพื้นฐานการเรียนรู้แบบเสริมกำลังแบบอะซิงโครนัสใหม่ แยกกระบวนการสร้างและการฝึกออกจากกัน ร่วมกับอัลกอริทึม RL เอเจนต์แบบอะซิงโครนัสที่คิดค้นขึ้นเอง ช่วยเพิ่มประสิทธิภาพการฝึกอย่างมาก
- ด้านการปรับใช้กับชิป: GLM-5 ได้ทำการปรับใช้เต็มสแต็กกับชิปจีนทั้งหมด เช่น Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, MetaX และ Enflame
สิ่งนี้ทำให้เกิดความคิดเห็นจากผู้ใช้อินเทอร์เน็ตบางส่วน:
ในแง่ของประสิทธิภาพต้นทุน AI ของสหรัฐฯ เทียบไม่ได้กับจีน

ต่อไป เราจะมาวิเคราะห์เอกสารทางเทคนิคฉบับนี้อย่างลึกซึ้ง
สามเทคโนโลยีหลักของ GLM-5
ก่อนเข้าสู่รายละเอียดทางเทคนิค จำเป็นต้องเข้าใจความท้าทายหลักที่ GLM-5 เผชิญ: โมเดลขนาดใหญ่จำเป็นต้องเริ่มจัดการกับงานที่ซับซ้อนและยากอย่างแท้จริง
ในยุค GLM-4.5 Zhipu AI ได้พิสูจน์แล้วว่าการรวมความสามารถ ARC เข้ากับสถาปัตยกรรม MoE เดียวเป็นไปได้ อย่างไรก็ตาม เมื่อโมเดลถูกนำไปใช้ในสถานการณ์ธุรกิจจริง เช่น วิศวกรรมซอฟต์แวร์ที่ซับซ้อน การสนทนาหลายรอบในระยะยาว ต้นทุนการคำนวณและการปรับตัวให้เข้ากับสภาพแวดล้อมกลายเป็นข้อจำกัดหลัก

△ กระบวนการฝึกทั้งหมดของ GLM-5
GLM-5 มุ่งหมายที่จะแก้ไขข้อจำกัดเหล่านี้ เทคโนโลยีหลักสามารถสรุปได้เป็นสามนวัตกรรม
ขีดแรก: การนำกลไกความสนใจแบบเบาบางแบบไดนามิก (DSA) มาใช้
ในสถาปัตยกรรม Transformer ความซับซ้อนในการคำนวณความสนใจแบบหนาแน่นแบบดั้งเดิมเพิ่มขึ้นเป็นกำลังสอง (O(N²)) ตามความยาวของคอนเท็กซ์ เมื่อหน้าต่างคอนเท็กซ์ขยายออกไปถึง 200K หรือยาวกว่านั้น ต้นทุนการคำนวณจะสูงมาก กลายเป็นข้อจำกัดหลักที่จำกัดความสามารถของเอเจนต์ในการจัดการงานที่ซับซ้อน
วิธีแก้ของ GLM-5 คือการนำกลไกความสนใจแบบเบาบางแบบไดนามิกมาใช้ แนวคิดหลักคือการใช้กลไกการเลือกแบบละเอียดแบบไดนามิกแทนที่ความสนใจแบบหนาแน่นแบบดั้งเดิม ต่างจากรูปแบบหน้าต่างเลื่อนแบบตายตัว DSA จะ “พิจารณา” เนื้อหา และตัดสินใจแบบไดนามิกว่าโทเค็นใดมีความสำคัญ
อย่างไรก็ตาม การฝึกโมเดลขนาดใหญ่มากโดยตรงบน DSA มีความเสี่ยงสูง อาจทำให้เกิดการระเบิดของเกรเดียนต์หรือโมเดลล่มเนื่องจากข้อมูลสูญหายจากการทำให้เบาบาง ดังนั้น ทีม GLM-5 จึงใช้กลยุทธ์ การฝึกล่วงหน้าต่อเนื่อง ที่ชาญฉลาด ประกอบด้วยสองขั้นตอนสำคัญ:
- การวอร์มอัพแบบหนาแน่น: ในระยะเริ่มต้นของการฝึกล่วงหน้า โมเดลยังคงใช้กลไกความสนใจแบบค่อนข้างหนาแน่น เพื่อสร้างความสามารถในการแสดงความหมายระดับโลกที่มั่นคง
- การเปลี่ยนผ่านอย่างราบรื่นและการฝึกแบบเบาบาง: เมื่อโมเดลมีพื้นฐานที่ดีแล้ว ค่อยๆ เพิ่มระดับความเบาบาง ตรรกะหลักของ DSA คือ: เมื่อคำนวณความสนใจของโทเค็นปัจจุบัน ผ่านกลไกการกำหนดเส้นทางแบบไดนามิก จะเลือกเฉพาะโทเค็นในประวัติ Top-K ที่เกี่ยวข้องมากที่สุดมาคำนวณ

△ การเปรียบเทียบเส้นโค้งการสูญเสีย SFT ระหว่างการฝึก MLA และ DSA
ตามรายงานทางเทคนิค นวัตกรรมนี้ได้นำมาซึ่งผลลัพธ์ที่โดดเด่น:
- ลดค่าใช้จ่าย KV Cache ลง 75%: ภายใต้เงื่อนไขฮาร์ดแวร์เดียวกัน สามารถรองรับคำขอพร้อมกันได้มากกว่า 4 เท่าหรือประมวลผลคอนเท็กซ์ที่ยาวกว่า 4 เท่า
- เพิ่มความเร็วในการอนุมาน 3 เท่า: ปริมาณการคำนวณความสนใจลดลงอย่างมาก เวลาตอบสนองของตัวอักษรแรกและอัตราการสร้างบรรลุระดับสูงสุดของอุตสาหกรรม
- ความสามารถด้านข้อความยาวเกือบไม่สูญเสีย: ในการประเมินการให้เหตุผลที่ซับซ้อนด้วยข้อความยาว เช่น “เข็มในมหาสมุทร” และ RULER GLM-5 ที่ใช้ DSA เมื่อเทียบกับโมเดลหนาแน่นเต็มรูปแบบ มีการลดลงของประสิทธิภาพเพียงเล็กน้อย (น้อยกว่า 0.5%)
ขีดที่สอง: การเรียนรู้แบบเสริมกำลังหลายงานแบบอะซิงโครนัส
หากกล่าวว่า DSA แก้ไขปัญหาต้นทุนการอนุมาน นวัตกรรมที่สองของ GLM-5 มุ่งหมายที่จะแก้ไขปัญหาประสิทธิภาพการฝึก โดยเฉพาะในขั้นตอนการฝึกหลังซึ่งกำหนดประสิทธิภาพสุดท้ายของโมเดล
อัลกอริทึมการจัดตำแหน่งการเรียนรู้แบบเสริมกำลังหลักในอุตสาหกรรมปัจจุบันยังคงเป็น PPO PPO มาตรฐานเป็นกระบวนการที่ซิงโครไนซ์สูง เกี่ยวข้องกับการทำงานร่วมกันของโมเดลสี่ตัว ได้แก่ Actor, Reference, Critic, Reward บน GPU หลายตัว กลไกการซิงโครไนซ์ “เดินหนึ่งก้าว หยุดหนึ่งครั้ง” นี้ ทำให้อัตราการใช้คลัสเตอร์ GPU มักจะอยู่ที่ 20%-30% กำลังการคำนวณจำนวนมากสูญเสียไปกับการรอการสื่อสารและการซิงโครไนซ์
เพื่อทำลายข้อจำกัดนี้ Zhipu AI ได้สร้างโครงสร้างพื้นฐานการเรียนรู้แบบเสริมกำลังแบบอะซิงโครนัสขึ้นใหม่จากพื้นฐานสำหรับ GLM-5 ตามเฟรมเวิร์ก Slime จากยุค GLM-4.5
การออกแบบหลักคือการแยกเอ็นจิ้นการฝึกและเอ็นจิ้นการอนุมานไปยังอุปกรณ์ GPU ที่ต่างกัน เอ็นจิ้นการอนุมานสร้างข้อมูลวิถีอย่างต่อเนื่อง เมื่อถึงเกณฑ์ที่กำหนดไว้ จะส่งไปยังเอ็นจิ้นการฝึกเพื่ออัปเดตโมเดล เพื่อลดความล่าช้าของกลยุทธ์และรักษาความเป็นกลยุทธ์เดียวกันโดยประมาณในการฝึก น้ำหนักโมเดลของเอ็นจิ้นการอนุมานจะถูกซิงโครไนซ์กับฝั่งการฝึกเป็นระยะ แนวทางการฝึกแบบอะซิงโครนัสสมบูรณ์นี้ โดยการลดเวลา “ฟองอากาศ” ในระหว่างการ rollout ของเอเจนต์ ช่วยเพิ่มอัตราการใช้ GPU และประสิทธิภาพการฝึกโดยรวมอย่างมีนัยสำคัญ
การสนับสนุนสถาปัตยกรรมแบบอะซิงโครนัสนี้ จำเป็นต้องแก้ไขปัญหาทางเทคนิคที่สำคัญหลายประการ:
ประการแรก ใช้ Token-in-Token-out (TITO) แทน Text-in-Text-out
ในการตั้งค่า RL rollout TITO หมายความว่ากระบวนการฝึกใช้โฟลว์โทเค็นที่แม่นยำที่สร้างโดยเอ็นจิ้นการอนุมานโดยตรงเพื่อสร้างวิถีการเรียนรู้ ในทางตรงกันข้าม Text-in-Text-out ถือว่าเอ็นจิ้น rollout เป็นกล่องดำที่ส่งกลับข้อความสุดท้าย ตัวฝึกจำเป็นต้องทำ tokenization ใหม่ การทำ tokenization ใหม่อาจทำให้เกิดความไม่ตรงกันเล็กน้อยในด้านขอบเขตของโทเค็น การจัดการช่องว่าง ฯลฯ ซึ่งส่งผลต่อการประมาณความน่าจะเป็นการสุ่มตัวอย่างของโทเค็นแต่ละตัว GLM-5 ได้ใช้เกตเวย์ TITO ซึ่งจะดักจับคำขอสร้างทั้งหมดและบันทึก tokenID และเมตาดาต้าของแต่ละวิถี แยกการประมวลผลโทเค็นที่ยุ่งยากออกจากลอจิกการ rollout ของเอเจนต์的下游
ประการที่สอง แก้ไขความเอนเอนของกลยุทธ์ที่ต่างกันผ่านการสุ่มตัวอย่างความสำคัญสองด้านโดยตรง
ในการตั้งค่าแบบอะซิงโครนัส เอ็นจิ้น rollout อาจผ่านการอัปเดตโมเดลหลายครั้งในระหว่างกระบวนการสร้างวิถีเดียว การติดตามความน่าจะเป็นพฤติกรรมที่แม่นยำของโมเดลประวัติศาสตร์ทั้งหมดไม่สามารถทำได้ในการคำนวณ ทีมวิจัยใช้แผนการแบบง่าย: ใช้ลอการิทึมความน่าจะเป็นที่สร้างขึ้นในระหว่างการ rollout เป็นพร็อกซีพฤติกรรมโดยตรง โดยการคำนวณอัตราส่วนการสุ่มตัวอย่างความสำคัญ และใช้กลยุทธ์มาสก์ระดับโทเค็นแบบสอบเทียบสองด้าน เพื่อจำกัดขอบเขตความไว้วางใจไว้ที่ช่วงเฉพาะ และปิดกั้นการคำนวณเกรเดียนต์โดยสมบูรณ์สำหรับโทเค็นที่อยู่นอกช่วงนี้ จึงกำจัดค่าใช้จ่ายในการอนุมานกลยุทธ์เก่าแยกต่างหาก
ประการที่สาม การกำหนดเส้นทางที่ตระหนักถึง DP เพื่อเร่งการอนุมานคอนเท็กซ์ยาว
ในเวิร์กโหลดเอเจนต์หลายรอบ คำขอตามลำดับจาก rollout เดียวกันจะแชร์คำนำหน้าเดียวกัน ทีมวิจัยเสนอให้แมปแต่ละ rollout ID ไปยังอันดับ Data Parallel (DP) คงที่ผ่านการแฮชแบบสอดคล้องกัน และรวมกับการปรับสมดุลโหลดแบบไดนามิกน้ำหนักเบาบนพื้นที่แฮช ซึ่งหลีกเลี่ยงการคำนวณการเติมล่วงหน้าที่ซ้ำซ้อน ไม่จำเป็นต้องซิงโครไนซ์ KV ข้ามอันดับ DP ทำให้ต้นทุนการเติมล่วงหน้า เมื่อความยาวของ rollout เพิ่มขึ้น ยังคงเป็นสัดส่วนกับโทเค็นที่เพิ่มขึ้นเท่านั้น
โครงสร้างพื้นฐาน RL แบบอะซิงโครนัสนี้สนับสนุนการฝึกการเรียนรู้แบบเสริมกำลังแบบผสมในหลายโดเมนของ GLM-5 ครอบคลุมคณิตศาสตร์ วิทยาศาสตร์ โค้ด และการให้เหตุผลแบบบูรณาการเครื่องมือ (TIR) ข้อมูลการฝึกมาจากชุดข้อมูลโอเพ่นซอร์ส ปัญหา STEM ที่สร้างร่วมกับผู้ให้บริการติดป้ายกำกับภายนอก ชุดข้อมูลตัวแทนเช่น Codeforces และ TACO ในการฝึก过程 ได้จัดสรรโมเดลผู้ตัดสินหรือระบบประเมินเฉพาะสำหรับแต่ละโดเมน เพื่อสร้างผลลัพธ์ไบนารีเป็นสัญญาณรางวัล สัดส่วนการผสมโดยรวมของทั้งสี่โดเมนยังคงสมดุลโดยประมาณ
ขีดที่สาม: การป้อนข้อมูลโลกแห่งความเป็นจริง
ข้อมูลการปรับแต่งภายใต้การดูแลแบบดั้งเดิมมักขึ้นอยู่กับคำตอบมาตรฐาน แต่โลกแห่งความเป็นจริงนั้นซับซ้อนและเปลี่ยนแปลงได้ เพื่อให้โมเดลมีความสามารถทางวิศวกรรมที่แท้จริง ขีดที่สามของ GLM-5 คือ การสร้างข้อมูลสภาพแวดล้อมโลกแห่งความเป็นจริงจำนวนมากที่สามารถตรวจสอบได้
คลังข้อมูล SFT ทั้งหมดครอบคลุมสามหมวดหมู่: การสนทนาทั่วไป การให้เหตุผล การเขียนโปรแกรมและเอเจนต์ เป็นที่น่าสังเกตว่า GLM-5 ในขั้นตอน SFT ได้ขยายความยาวคอนเท็กซ์สูงสุดเป็น 202,752 โทเค็น และสนับสนุนคุณลักษณะการคิดสามแบบที่แตกต่างกัน:
* การคิดสลับ: โมเดลคิดก่อนการตอบสนองและการเรียกใช้เครื่องมือแต่ละครั้ง เพื่อเพิ่มการปฏิบัติตามคำสั่งและคุณภาพการสร้าง;
* การคิดแบบคงไว้: ในสถานการณ์ Coding Agent โมเดลจะคงบล็อกการคิดทั้งหมดไว้โดยอัตโนมัติในการสนทนาหลายรอบ นำการให้เหตุผลที่มีอยู่กลับมาใช้ใหม่แทนการหาค่าใหม่ ลดการสูญเสียข้อมูลและความไม่สอดคล้องกัน;
* การคิดระดับรอบ: สนับสนุนการควบคุมการให้เหตุผลในแต่ละรอบของการสนทนาอย่างละเอียด คำขอเบาสามารถปิดใช้งานการคิดเพื่อลดความล่าช้า งานที่ซับซ้อนสามารถเปิดใช้งานการคิดเพื่อเพิ่มความแม่นยำและความเสถียร

เพื่อสนับสนุนการฝึกการเรียนรู้แบบเสริมกำลังของเอเจนต์ ทีมวิจัยยังได้สร้างสภาพแวดล้อมที่ปฏิบัติการได้ขนาดใหญ่ที่สามารถตรวจสอบได้:
* สภาพแวดล้อมวิศวกรรมซอฟต์แวร์: อิงตามคู่ Issue-PR ของโลกแห่งความเป็นจริง ใช้เฟรมเวิร์ก RepoLaunch เพื่อวิเคราะห์การติดตั้งที่เก็บและการตั้งค่าการพึ่งพาอัตโนมัติ สร้างสภาพแวดล้อมที่ปฏิบัติการได้และสร้างคำสั่งทดสอบ ในที่สุด ทีมได้สร้างสภาพแวดล้อมที่สามารถตรวจสอบได้มากกว่า 10,000 แห่ง ในที่เก็บหลายพันแห่งที่ครอบคลุมภาษาโปรแกรม 9 ภาษา เช่น Python, Java, Go, C, C++, JavaScript, TypeScript, PHP, Ruby
* สภาพแวดล้อมเทอร์มินัล: ใช้กระบวนการสังเคราะห์ข้อมูลเอเจนต์สามขั้นตอน – การสร้างร่างงาน การนำ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22852
