การรีวิวเชิงลึกของ稀宇MiniMax M2.5: ความสามารถในการเขียนโปรแกรมก้าวกระโดดอย่างก้าวหน้า การใช้เหตุผลเชิงตรรกะมั่นคงและก้าวหน้า

2026年2月13日 pm12:18 • ข่าวสารอุตสาหกรรม AI • 225 views

บทสรุปสั้นๆ: รากหยั่งลึกลงดิน เติบโตพุ่งขึ้นฟ้า

สถานภาพพื้นฐาน:

รุ่น M2.1 ก่อนหน้าของ Xiyu เนื่องจากปัญหาทางเทคนิค ทำให้ความสามารถด้านตรรกะล้าหลังกว่า M2 รุ่น M2.5 ได้แก้ไขปัญหาเหล่านี้ได้ในระดับพื้นฐาน ความสามารถกลับสู่แนวทางปกติ เมื่อเทียบกับ M2 ความสามารถโดยรวมของ M2.5 เพิ่มขึ้นประมาณ 17%

ความก้าวหน้าบางส่วนมาจากการมี chain of thought ที่ยาวขึ้นและการสำรวจพื้นที่การแก้ปัญหาที่ลึกขึ้น การใช้โทเค็นเฉลี่ยของ M2.5 อยู่ในอันดับที่ 6 ในบรรดาโมเดลทดสอบ ซึ่งเกือบจะเป็นสองเท่าของคู่แข่งอย่าง Sonnet ด้วยข้อได้เปรียบด้านกำลังการประมวลผลที่เพียงพอและต้นทุนที่ควบคุมได้ของ Xiyu แม้ว่า M2.5 ในการเขียนโปรแกรมจะยังไม่สามารถแทนที่ Sonnet ได้อย่างสมบูรณ์ แต่สำหรับการใช้งานประจำวันนั้นใช้งานได้เต็มที่แล้ว ในที่สุดก็บรรลุเป้าหมายที่คาดหวังไว้สำหรับ M2.1

คะแนนตรรกะ:

การรีวิวเชิงลึกของ稀宇MiniMax M2.5: ความสามารถในการเขียนโปรแกรมก้าวกระโดดอย่างก้าวหน้า การใช้เหตุผลเชิงตรรกะมั่นคงและก้าวหน้า

1 ตารางเน้นแสดงความสัมพันธ์เปรียบเทียบ แสดงเฉพาะโมเดลบางส่วนที่สามารถเปรียบเทียบได้ ไม่ใช่การจัดอันดับแบบสมบูรณ์
2 หัวข้อและวิธีการทดสอบ ดูที่: การประเมินเปรียบเทียบความสามารถด้านตรรกะของโมเดลภาษาขนาดใหญ่ – อันดับรายเดือน 26-01 เพิ่มข้อ #56
3 อันดับสมบูรณ์อัปเดตที่ https://llm2014.github.io/llm_benchmark/
4 สีแดงเป็นสีเฉพาะช่วงตรุษจีน แสดงถึงความรื่นเริง ไม่มีความหมายอื่น

เนื่องจาก M2.1 เป็นรุ่นที่มีบั๊กและความสามารถด้านตรรกะต่ำผิดปกติอย่างชัดเจน ต่อไปนี้จะเปรียบเทียบข้ามรุ่นระหว่าง M2 และ M2.5 เท่านั้น

การปรับปรุง:

การให้เหตุผลที่เสถียร: M2.5 สามารถรักษาข้อจำกัดเริ่มต้นและรายละเอียดบริบทได้ในกระบวนการให้เหตุผลที่ยาวขึ้น ดังนั้นในปัญหาบางอย่างที่ต้องการ “ความตั้งใจจดจ่อ” คะแนนจึงเพิ่มขึ้นอย่างเห็นได้ชัด ตัวอย่างเช่น ในปัญหา #4 การหมุนลูกบาศก์ (รูบิค) M2.5 เป็นโมเดลที่ 8 ของโลกที่ได้คะแนนเต็ม อย่างไรก็ตาม ปัญหาประเภทนี้โมเดลหลักจากอเมริกาเหนือส่วนใหญ่สามารถทำคะแนนเต็มได้อย่างเสถียร M2.5 สามารถตอบถูกได้เพียงความน่าจะเป็นต่ำๆ ช่องว่างยังคงมีอยู่
ความสามารถในการเขียนโปรแกรม: ดังที่กล่าวไว้ก่อนหน้า M2.5 ไม่สามารถแทนที่ Sonnet ได้ทุกด้าน ข้อจำกัดหลักอยู่ที่ปริมาณความรู้ด้านการเขียนโปรแกรม ในสถานการณ์ที่เกี่ยวข้องกับประสบการณ์ เทคนิค ความแตกต่างของ API เวอร์ชัน ฯลฯ หากไม่มีคำใบ้ M2.5 มักจะพบปัญหาได้ยากด้วยตัวเอง โดยปกติต้องใช้การโต้ตอบหลายรอบเพื่อระบุปัญหาแบบค่อยเป็นค่อยไป แต่เมื่อเทียบกับ M2 นี่ถือเป็นความก้าวหน้าอย่างมากแล้ว ในการทดสอบโปรเจกต์ C โมเดลในประเทศส่วนใหญ่จะติดอยู่ที่สองรอบแรก ในขณะที่ M2.5 กลายเป็นโมเดลในประเทศรุ่นแรกที่ก้าวข้ามไปถึงรอบที่ 8 แม้ว่าจะมีจุดอ่อนในการใช้ OpenGL และจินตนาการเชิงพื้นที่ แต่เมื่อรวมกับความสามารถของ Agent ที่ได้รับการปรับปรุงแล้ว มันสามารถบรรจบสู่คำตอบที่ถูกต้องได้ผ่านการลองผิดลองถูกอย่างต่อเนื่อง นอกจากนี้ M2.5 ในการทำงานเขียนโปรแกรมจะให้ผลลัพธ์ที่กระชับกว่า โดยปกติจะสรุปสั้นๆ เฉพาะเมื่อทำงานเสร็จสิ้นแล้วเท่านั้น และแทบไม่แสดงแนวคิดระหว่างทาง ผลการทดสอบทางวิศวกรรมอื่นๆ จะมีการอัปเดตในภายหลัง
ความสามารถในการคำนวณ: ความสามารถในการคำนวณของ M2 ไม่ได้โดดเด่นอยู่แล้ว M2.1 ยิ่งถอยหลังลงไปอีก M2.5 ได้ทำการปรับปรุงที่มีประสิทธิภาพจากจุดเริ่มต้นที่ต่ำ ในกรณีการคำนวณง่ายๆ ส่วนใหญ่ M2.5 มีความน่าจะเป็นต่ำที่จะบรรลุความแม่นยำสูง แต่ในกรณีส่วนใหญ่ยังคงมีปัญหาคำนวณผิด ค่าผิดพลาดสูง หรือเข้าใจสูตรยาก การฝึกฝนในด้านนี้ยังคงไม่เพียงพอ ในฐานะโมเดลที่เน้นการขับเคลื่อนด้วย Agent ความสามารถในการคำนวณไม่ใช่ความต้องการที่จำเป็น ความสามารถในการคำนวณของซีรีส์ Claude ก็ล้าหลังมาเป็นเวลานานเช่นกัน

ข้อบกพร่อง:

การปฏิบัติตามคำสั่ง: เมื่อเทียบกับ M2 การปรับปรุงในการปฏิบัติตามคำสั่งมีขอบเขตจำกัด ความน่าจะเป็นที่จะได้คะแนนเต็มเมื่อจัดการกับปัญหาง่ายๆ สูงขึ้น แต่ไม่สามารถรักษาความเสถียรได้ มีกรณีที่ละทิ้งหรือแก้ไขคำสั่งแบบสุ่ม แม้ว่า chain of thought จะแสดงว่าโมเดลสังเกตเห็นคำสั่งทั้งหมดแล้วก็ตาม ประสิทธิภาพโดยรวมล้าหลังกว่าโมเดลอื่นๆ ในกลุ่มแรก ในด้านการเขียนโปรแกรมก็ยังมีกรณีที่ไม่สนใจข้อกำหนดการเข้ารหัสและมาตรฐานโปรเจกต์ เช่น ในโปรเจกต์ C เพื่อแก้ไขบั๊กอีกอย่างหนึ่ง M2.5 ได้เปลี่ยนแกน Z ที่กำหนดให้ชี้ขึ้นเป็นแกน Y ชี้ขึ้นโดยพลการ การใช้งานประจำวันจำเป็นต้องระมัดระวังควบคุมเพิ่มเติม
การควบคุมภาพลวงตา (Hallucination): ระดับภาพลวงตาของ M2.5 เมื่อเทียบกับ M2 ไม่มีการปรับปรุงที่เห็นได้ชัดเจน ในปัญหาส่วนใหญ่ที่เกี่ยวข้องกับบริบท คะแนนสูงสุดของทั้งสองรุ่นเท่ากัน แม้กระทั่งในปัญหา #43 การคำนวณจำนวนเป้าหมาย M2.5 ยังทำผิดพลาดพื้นฐานที่โมเดลในกลุ่มที่สองมักจะทำ เช่น การใช้ตัวเลขซ้ำหรือละเว้นตัวเลข

บันทึกประวัติศาสตร์ไซเบอร์กล่าวว่า:

บริษัทผู้ผลิตในประเทศใช้เวลาเกือบหนึ่งปีในการสำรวจเส้นทางการพัฒนาของโมเดลเขียนโปรแกรม โมเดลรุ่นแรกๆ ที่อ้างว่าสามารถแทนที่ Sonnet ได้อย่างเท่าเทียม ส่วนใหญ่ดูเหมือนจะใกล้เคียงเฉพาะในด้านผลลัพธ์การสร้าง “ประโยคเดียว” เท่านั้น แต่การจัดระเบียบโค้ดภายใน วิศวกรรมซอฟต์แวร์ และความสามารถที่สำคัญยิ่งกว่านั้นคือการทำซ้ำหลายรอบ ยังห่างไกลจากคู่แข่ง สิ่งนี้นำไปสู่การที่โปรแกรมเมอร์ในประเทศส่วนใหญ่ขาดความไว้วางใจในโมเดล国产 และยินดีรับความเสี่ยงเพื่อใช้ Claude

เมื่อ MiniMax M2, M2.1 เริ่มพลิกความเห็นในทางที่ดี รุ่น M2.5 นี้ได้ผลักดันความสามารถในการใช้งานของโมเดล国产ในด้านการเขียนโปรแกรมไปข้างหน้าอย่างมาก แน่นอนว่า M2.5 ยังคงมีช่องว่างในทุกด้านเมื่อเทียบกับระดับ Opus ที่บริษัทประกาศอย่างเป็นทางการ แต่ตราบใดที่มีคนยินดีไว้วางใจและใช้งาน สิ่งต่างๆ ก็จะพัฒนาไปในทิศทางที่ดีขึ้น เมื่อพิจารณาจากมุมนี้ M2.5 ถือเป็นก้าวที่มั่นคงของ Xiyu สู่เป้าหมายอย่างแท้จริง

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง