MiniMax M2.5 รีวิวเชิงลึก: ความก้าวหน้าทางการใช้งานการเขียนโปรแกรมของโมเดลในประเทศ พัฒนาความสามารถด้านตรรกะและวิศวกรรมอย่างรอบด้าน

ข้อสรุปสั้นๆ: รากหยั่งลึกลงดิน เติบโตพุ่งขึ้นฟ้า

สถานภาพพื้นฐาน:

รุ่นก่อนหน้าของ Xiyu คือ M2.1 เนื่องจากปัญหาทางเทคนิค ทำให้ความสามารถด้านตรรกะล้าหลังกว่า M2 M2.5 แก้ไขปัญหาเหล่านี้ได้ในระดับพื้นฐาน ความสามารถกลับสู่แนวทางที่ถูกต้อง ประสิทธิภาพโดยรวมเพิ่มขึ้นประมาณ 17% เมื่อเทียบกับ M2

อย่างไรก็ตาม ความก้าวหน้าบางส่วนได้มาจากการมี chain of thought ที่ยาวขึ้นและการสำรวจพื้นที่คำตอบที่ลึกขึ้น การใช้โทเค็นโดยเฉลี่ยของ M2.5 อยู่ในอันดับที่ 6 สูงสุดในบรรดาโมเดลที่ทดสอบ ซึ่งเกือบจะเป็นสองเท่าของคู่แข่งอย่าง Sonnet ด้วยข้อได้เปรียบด้านกำลังการประมวลผลที่เพียงพอและต้นทุนที่ควบคุมได้ของ Xiyu แม้ว่า M2.5 จะไม่สามารถแทนที่ Sonnet ได้อย่างสมบูรณ์ในงานด้านการเขียนโปรแกรม แต่สำหรับการใช้งานในชีวิตประจำวันก็สามารถใช้ได้อย่างเต็มที่ ในที่สุดก็บรรลุเป้าหมายที่ M2.1 ไม่สามารถทำได้

ผลคะแนนด้านตรรกะ:

MiniMax M2.5 รีวิวเชิงลึก: ความก้าวหน้าทางการใช้งานการเขียนโปรแกรมของโมเดลในประเทศ พัฒนาความสามารถด้านตรรกะและวิศวกรรมอย่างรอบด้าน

หมายเหตุ 1: ตารางนี้เน้นแสดงความสัมพันธ์เปรียบเทียบ แสดงเฉพาะโมเดลบางส่วนที่สามารถเปรียบเทียบกันได้ ไม่ใช่การจัดอันดับแบบสมบูรณ์
หมายเหตุ 2: หัวข้อข้อสอบและวิธีการทดสอบ ดูได้ที่การประเมินที่เกี่ยวข้อง
หมายเหตุ 3: ตารางอันดับแบบสมบูรณ์ได้รับการอัปเดตแล้ว
หมายเหตุ 4: สีแดงเป็นสัญลักษณ์แสดงความยินดีในช่วงตรุษจีน ไม่มีความหมายพิเศษ

เนื่องจาก M2.1 เป็นเวอร์ชันที่มีบั๊กและความสามารถด้านตรรกะต่ำผิดปกติ ดังนั้นต่อไปจะเปรียบเทียบข้ามรุ่นระหว่าง M2 และ M2.5 เท่านั้น

การปรับปรุง:

  • การให้เหตุผลที่เสถียร: M2.5 สามารถรักษาข้อจำกัดเริ่มต้นและรายละเอียดบริบทได้ดีขึ้นในกระบวนการให้เหตุผลที่ยาวขึ้น สำหรับปัญหาที่ความยากไม่สูงแต่ต้องการ “ความตั้งใจ” คะแนนของมันเพิ่มขึ้นอย่างเห็นได้ชัด ตัวอย่างเช่น ในปัญหา #4 การหมุนลูกบาศก์ (รูบิก) M2.5 เป็นโมเดลที่ 8 ของโลกที่ได้คะแนนเต็ม แต่ในปัญหาประเภทนี้ โมเดลหลักจากอเมริกาเหนือส่วนใหญ่สามารถได้คะแนนเต็มอย่างเสถียร ในขณะที่ M2.5 สามารถทำได้เพียงความน่าจะเป็นต่ำเท่านั้น ช่องว่างยังคงมีอยู่
  • ความสามารถด้านการเขียนโปรแกรม: ดังที่กล่าวไว้ก่อนหน้า M2.5 ไม่สามารถแทนที่ Sonnet ได้ในทุกด้าน ข้อจำกัดหลักอยู่ที่ปริมาณความรู้ด้านการเขียนโปรแกรม ในสถานการณ์ที่ต้องการประสบการณ์ เทคนิค หรือการจัดการกับความแตกต่างของเวอร์ชัน API หากไม่มีคำใบ้ M2.5 มักจะพบปัญหาได้ยาก โดยปกติต้องใช้การโต้ตอบหลายรอบเพื่อระบุปัญหาแบบค่อยเป็นค่อยไป แต่นี่ถือเป็นความก้าวหน้าอย่างมากเมื่อเทียบกับ M2 ในการทดสอบโปรเจกต์ C โมเดลจีนส่วนใหญ่จะติดอยู่ที่สองรอบแรก ในขณะที่ M2.5 กลายเป็นโมเดลจีนรุ่นแรกที่ก้าวผ่านไปถึงรอบที่ 8 แม้ว่ามันจะมีจุดอ่อนในการใช้ OpenGL และจินตนาการเชิงพื้นที่ แต่เมื่อรวมกับความสามารถของ Agent ที่ได้รับการปรับปรุงแล้ว มันสามารถบรรจบสู่คำตอบที่ถูกต้องได้ผ่านการลองผิดลองถูก นอกจากนี้ M2.5 ให้ผลลัพธ์ที่กระชับมากขึ้นเมื่อเขียนโปรแกรม โดยปกติจะสรุปสั้นๆ เฉพาะหลังจากทำงานเสร็จสิ้นเท่านั้น และให้ผลลัพธ์แนวทางคิดในระหว่างทางน้อยกว่า ผลการทดสอบโปรเจกต์อื่นๆ จะอัปเดตในภายหลัง
  • ความสามารถด้านการคำนวณ: ความสามารถด้านการคำนวณของ M2 ไม่ได้โดดเด่นตั้งแต่แรก และ M2.1 ยิ่งถอยหลังลงไปอีก M2.5 ได้ทำการปรับปรุงที่มีประสิทธิภาพจากจุดเริ่มต้นที่ต่ำกว่า โดยบรรลุความแม่นยำสูงด้วยความน่าจะเป็นต่ำในการคำนวณง่ายๆ ส่วนใหญ่ แต่ในกรณีส่วนใหญ่ยังคงมีปัญหาการคำนวณผิดพลาด ข้อผิดพลาดใหญ่ หรือความเข้าใจสูตรที่ไม่ชัดเจน การฝึกอบรมที่เกี่ยวข้องยังคงไม่เพียงพอ ในฐานะโมเดลที่ขับเคลื่อนโดย Agent ความสามารถด้านการคำนวณไม่ใช่ความต้องการที่ขาดไม่ได้ ความสามารถด้านการคำนวณของซีรีส์ Claude ก็ล้าหลังมาเป็นเวลานานเช่นกัน

ข้อบกพร่อง:

  • การปฏิบัติตามคำสั่ง: เมื่อเทียบกับ M2 ความสามารถในการปฏิบัติตามคำสั่งเพิ่มขึ้นอย่างจำกัด ความน่าจะเป็นที่จะได้คะแนนเต็มเมื่อจัดการกับคำสั่งง่ายๆ สูงขึ้น แต่ไม่สามารถแสดงผลได้อย่างเสถียร มีกรณีที่ละทิ้งหรือบิดเบือนคำสั่งแบบสุ่ม แม้ว่า chain of thought จะแสดงว่าโมเดลสังเกตเห็นคำสั่งทั้งหมดแล้วก็ตาม ประสิทธิภาพโดยรวมล้าหลังกว่าโมเดลอื่นๆ ในกลุ่มแรก นอกจากนี้ในการเขียนโปรแกรมยังอาจปรากฏกรณีที่ไม่สนใจข้อกำหนดการเข้ารหัสหรือมาตรฐานโปรเจกต์ เช่น ในการโปรเจกต์ C ได้เปลี่ยนทิศทางของแกนพิกัดที่กำหนดไว้โดยพลการ การใช้งานประจำวันจำเป็นต้องให้ความสนใจเพิ่มเติมในการชี้นำและการควบคุม
  • การควบคุมภาพลวงตา (Hallucination): ระดับภาพลวงตาของ M2.5 เมื่อเทียบกับ M2 ไม่มีการปรับปรุงที่เห็นได้ชัด ในปัญหาส่วนใหญ่ที่เกี่ยวข้องกับบริบท คะแนนสูงสุดของทั้งสองรุ่นเท่ากัน แม้กระทั่งในปัญหาอย่าง #43 การคำนวณจำนวนเป้าหมาย M2.5 ยังทำผิดพลาดพื้นฐานที่โมเดลในกลุ่มที่สองมักจะทำ เช่น การทำซ้ำหรือละเว้นตัวเลข

สรุป:

บริษัทผู้ผลิตในประเทศจีนได้สำรวจโมเดลการเขียนโปรแกรมมาเกือบหนึ่งปีแล้ว โมเดลในยุคแรกที่อ้างว่าสามารถแทนที่ Sonnet ได้อย่างเท่าเทียมกัน ส่วนใหญ่มีประสิทธิภาพใกล้เคียงกันเฉพาะในด้านการสร้างโค้ดแบบรอบเดียวเท่านั้น ความสามารถภายในด้านการจัดระเบียบโค้ด วิศวกรรม และการทำซ้ำหลายรอบยังห่างไกลจากคู่แข่ง ส่งผลให้โปรแกรมเมอร์ในประเทศจีนขาดความไว้วางใจในโมเดลจีนโดยทั่วไป

ในขณะที่ MiniMax M2 และ M2.1 เริ่มเปลี่ยนกระแสความคิดเห็นในระดับพื้นฐาน M2.5 รุ่นนี้ได้ผลักดันความสามารถในการใช้งานด้านการเขียนโปรแกรมของโมเดลจีนไปข้างหน้าอย่างมาก แม้ว่า M2.5 จะยังคงมีช่องว่างในทุกด้านเมื่อเทียบกับระดับ Opus ที่บริษัทประกาศอย่างเป็นทางการ แต่ตราบใดที่มีคนเริ่มไว้วางใจและใช้งาน ระบบนิเวศก็จะพัฒนาขึ้นในทิศทางที่ดี จากนี้จะเห็นได้ว่า M2.5 เป็นก้าวที่มั่นคงของ Xiyu สู่เป้าหมายอย่างแท้จริง


ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22946

Like (0)
Previous 2026年2月13日 pm12:18
Next 2026年2月13日 pm12:45

相关推荐