MiniMax ได้เปิดตัวเวอร์ชันใหม่ MiniMax M2.5 ก่อนช่วงวันหยุดตรุษจีน ทางบริษัทระบุว่าโมเดลนี้ได้รับการฝึกฝนผ่านการเรียนรู้แบบเสริมกำลังขนาดใหญ่ในสภาพแวดล้อมที่ซับซ้อนและหลากหลายนับแสนแห่ง โดยมีความสามารถในระดับแนวหน้าของอุตสาหกรรมในด้านการเขียนโปรแกรม การเรียกใช้เครื่องมือและการค้นหา ตลอดจนสถานการณ์การทำงานด้านผลิตภาพต่างๆ เราได้ทำการประเมินเปรียบเทียบอย่างครอบคลุมระหว่าง MiniMax M2.5 และรุ่นก่อนหน้า MiniMax M2.1 ในบริบทภาษาไทย โดยทดสอบความแตกต่างของประสิทธิภาพในตัวชี้วัดสำคัญ เช่น ความแม่นยำ เวลาตอบสนอง การใช้โทเค็น และต้นทุน
การประเมินครั้งนี้มุ่งเน้นไปที่สถานการณ์ความสามารถรอบด้านในภาษาไทย ครอบคลุมหลายมิติ ได้แก่ การศึกษา การแพทย์ การเงิน กฎหมาย การให้เหตุผลและการคำนวณทางคณิตศาสตร์ ภาษาและการปฏิบัติตามคำสั่ง การเรียกใช้เครื่องมือ Agent เป็นต้น ส่วนความสามารถในสถานการณ์เชิง Agentic ที่ทาง MiniMax เน้นย้ำ เช่น การเขียนโปรแกรม การค้นหาที่ซับซ้อน และการทำงานสำนักงาน เนื่องจากขอบเขตการประเมินในครั้งนี้อาจไม่ครอบคลุมเพียงพอ จึงอาจไม่สามารถสะท้อนข้อได้เปรียบที่แท้จริงได้อย่างเต็มที่
ประสิทธิภาพของ MiniMax เวอร์ชัน M2.5:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 65.7%
* เวลาเฉลี่ย (ต่อการเรียกใช้แต่ละครั้ง): 53 วินาที
* โทเค็นเฉลี่ย (จำนวนโทเค็นที่ใช้ต่อการเรียกใช้แต่ละครั้ง): 3307
* ค่าใช้จ่ายเฉลี่ย (ค่าใช้จ่ายต่อการเรียกใช้หนึ่งพันครั้ง เป็นเงินหยวน): 26.3
1. การเปรียบเทียบระหว่างเวอร์ชันใหม่และเก่า
ขั้นแรกเปรียบเทียบกับเวอร์ชันก่อนหน้า (MiniMax-M2.1) ข้อมูลมีดังนี้:

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence https://github.com/jeinlee1991/chinese-llm-benchmark
หน่วยราคาเอาต์พุต: หยวน/ล้านโทเค็น
- ประสิทธิภาพโดยรวมเพิ่มขึ้นอย่างมั่นคง: ความแม่นยำของเวอร์ชันใหม่เพิ่มขึ้นจาก 63.6% เป็น 65.7% เพิ่มขึ้น 2.1 จุดเปอร์เซ็นต์ อันดับขยับจากที่ 57 ขึ้นมาอยู่ที่ 41 เพิ่มขึ้น 16 อันดับ
- ความเร็วในการตอบสนองได้รับการปรับปรุงอย่างมาก: เวลาเฉลี่ยต่อการเรียกใช้แต่ละครั้งลดลงจาก 111 วินาที เหลือ 53 วินาที เพิ่มความเร็วประมาณ 52% ประสบการณ์ผู้ใช้ดีขึ้นอย่างเห็นได้ชัด สอดคล้องกับที่บริษัทอ้างว่า “ทำงานเสร็จเร็วกว่า M2.1 ถึง 37%”
- ประสิทธิภาพการใช้โทเค็นดีขึ้นเล็กน้อย: โทเค็นเฉลี่ยที่ใช้ต่อการเรียกใช้แต่ละครั้งลดลงจาก 3525 เหลือ 3307 ลดลงประมาณ 6.2% แสดงให้เห็นว่าเวอร์ชันใหม่มีประสิทธิภาพการใช้โทเค็นที่ดีขึ้นในกระบวนการให้เหตุผล
- ต้นทุนลดลงเล็กน้อย: ค่าใช้จ่ายต่อการเรียกใช้หนึ่งพันครั้งลดลงจาก 28.1 หยวน เหลือ 26.3 หยวน ลดลงประมาณ 6.4% แม้จะไม่มากนัก แต่เมื่อรวมกับการเพิ่มความเร็วในการตอบสนองอย่างมาก อัตราส่วนประสิทธิภาพต้นทุนโดยรวมก็ดีขึ้น
- ประสิทธิภาพในสาขาวิชาชีพแตกต่างกัน: เมื่อดูในรายละเอียด เวอร์ชันใหม่มีพัฒนาการในสาขาส่วนใหญ่ โดยเฉพาะอย่างยิ่ง “การแพทย์และสุขภาพจิต” เพิ่มขึ้นอย่างมีนัยสำคัญจาก 70.5% เป็น 73.7% (+3.2%); “กฎหมายและงานราชการ” จาก 74.3% เป็น 77.0% (+2.7%); “การศึกษา” จาก 40.0% เป็น 42.3% (+2.3%)
- ความสามารถของ Agent เพิ่มขึ้นอย่างเด่นชัด: สิ่งที่น่าสนใจคือ ความสามารถ “Agent และการเรียกใช้เครื่องมือ” เพิ่มขึ้นอย่างมากจาก 55.9% เป็น 66.5% เพิ่มขึ้น 10.6 จุดเปอร์เซ็นต์ สอดคล้องกับทิศทางการปรับปรุงสถานการณ์เชิง Agentic ที่บริษัทเน้นย้ำ และยืนยันความก้าวหน้าของโมเดลในการใช้เครื่องมือและการแยกย่อยงาน
- บางสาขามีการลดลง: เวอร์ชันใหม่ในสาขา “การเงิน” ลดลงจาก 76.7% เป็น 71.2% (-5.5%) “ภาษาและการปฏิบัติตามคำสั่ง” ก็ลดลงจาก 62.5% เป็น 59.0% (-3.5%) แสดงให้เห็นว่ามีการแลกเปลี่ยนความสามารถบางประการในกระบวนการปรับปรุงโดยรวม
2. เปรียบเทียบกับโมเดลอื่นๆ
ในสถานการณ์การแข่งขันของโมเดลใหญ่หลักในปัจจุบัน MiniMax M2.5 มีประสิทธิภาพอย่างไร? เราวิเคราะห์เปรียบเทียบในแนวนอนจากสามมิติ: ระดับต้นทุนใกล้เคียงกัน การอัปเดตจากเวอร์ชันเก่าเป็นใหม่ โมเดลโอเพ่นซอร์สและโมเดลปิด (การประเมินนี้เน้นบริบทภาษาไทย ประสิทธิภาพของโมเดลในภาษาอื่นและสาขาวิชาชีพอื่นอาจแตกต่างกัน):

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence https://github.com/jeinlee1991/chinese-llm-benchmark
เปรียบเทียบกับโมเดลในระดับต้นทุนใกล้เคียง:
- ตำแหน่งในระดับต้นทุน: MiniMax M2.5 มีต้นทุน 26.3 หยวน/พันครั้ง อยู่ในช่วงต้นทุนต่ำถึงปานกลาง เมื่อเทียบกับ qwen3-235b-a22b-thinking-2507 ที่มีต้นทุนใกล้เคียง (61.2 หยวน) MiniMax M2.5 มีต้นทุนต่ำกว่าและความแม่นยำสูงกว่าเล็กน้อย (65.7% vs 65.5% ใกล้เคียงกัน)
- อัตราส่วนประสิทธิภาพต้นทุนค่อนข้างดี: เมื่อเทียบกับโมเดลอื่นในระดับเดียวกัน gpt-5.2-high (94.1 หยวน) มีความแม่นยำ 67.4% gpt-5-2025-08-07 (31.9 หยวน) มีความแม่นยำ 68.9% MiniMax M2.5 มีข้อได้เปรียบในด้านการควบคุมต้นทุน
- ข้อได้เปรียบด้านความเร็วเด่นชัด: เวลาตอบสนอง 53 วินาที มีประสิทธิภาพดีเยี่ยมในโมเดลระดับเดียวกัน เร็วกว่าโมเดลเช่น qwen3-235b-a22b-thinking-2507 (143 วินาที), Kimi-K2-Thinking (333 วินาที) อย่างเห็นได้ชัด
เปรียบเทียบการอัปเดตจากเวอร์ชันเก่าเป็นใหม่:
- ผลลัพธ์การอัปเกรดเวอร์ชันมีนัยสำคัญ: จาก MiniMax M2.1 เป็น MiniMax M2.5 อันดับขยับจากที่ 57 ขึ้นมาอยู่ที่ 41 ความแม่นยำเพิ่มขึ้น 2.1 จุดเปอร์เซ็นต์ ความเร็วในการตอบสนองเพิ่มขึ้น 52% ความก้าวหน้าโดยรวมเห็นได้ชัด
- ความเร็วในการอัปเดตเป็นผู้นำในอุตสาหกรรม: บริษัทระบุว่าในช่วง 108 วันที่ผ่านมา ได้เปิดตัวสามเวอร์ชันติดต่อกัน ได้แก่ M2, M2.1 และ M2.5 ความสามารถของโมเดลได้รับการอัปเดตอย่างรวดเร็วและต่อเนื่อง ความเร็วในการก้าวหน้านี้โดดเด่นในอุตสาหกรรม
- เปรียบเทียบกับโมเดลใหม่ที่เปิดตัวในช่วงเวลาใกล้เคียง: เมื่อเทียบกับเวอร์ชันใหม่อื่นๆ ที่เพิ่งเปิดตัว เช่น doubao-seed-1-8-251215 (71.7%), GLM-4.7 (71.5%), ERNIE-5.0 (70.9%) ความแม่นยำ 65.7% ของ MiniMax M2.5 ยังมีช่องว่างอยู่บ้าง แสดงว่ายังมีพื้นที่สำหรับการพัฒนาด้านความสามารถรอบด้านในภาษาไทย
เปรียบเทียบโมเดลโอเพ่นซอร์สและโมเดลปิด:
- ตำแหน่งของโมเดลปิด: MiniMax M2.5 ในฐานะโมเดลปิดเชิงพาณิชย์ เมื่อเทียบกับโมเดลปิดอื่นๆ เช่น doubao-seed-1-8-251215 (71.7%), gemini-3-pro-preview (72.5%) ความแม่นยำยังมีช่องว่าง 5-7 จุดเปอร์เซ็นต์
- การแข่งขันกับโมเดลโอเพ่นซอร์ส: เมื่อเทียบกับโมเดลโอเพ่นซอร์ส เช่น DeepSeek-V3.2-Think (70.9%), DeepSeek-R1-0528 (65.9%) MiniMax M2.5 มีระดับใกล้เคียงกับหลัง แต่มีข้อได้เปรียบด้านต้นทุน (26.3 หยวน vs 48 หยวน)
- สาขาที่มีข้อได้เปรียบเฉพาะ: แม้ความแม่นยำรอบด้านในภาษาไทยจะอยู่ในระดับปานกลาง แต่ MiniMax M2.5 มีประสิทธิภาพโดดเด่นในด้านการเรียกใช้เครื่องมือ Agent (66.5%) ซึ่งสอดคล้องกับตำแหน่งผลิตภัณฑ์ของบริษัทที่ว่า “เกิดมาสำหรับยุค Agent”
3. การประเมินโดยบริษัท
จากข้อมูลการประเมินที่ MiniMax เปิดเผย (https://minimaxi.com/news/minimax-m25) MiniMax M2.5 ได้รับผลลัพธ์ที่ยอดเยี่ยมในการทดสอบมาตรฐานระดับนานาชาติหลายรายการ:
ความสามารถในการเขียนโปรแกรม:
ในการทดสอบหลักด้านการเขียนโปรแกรม M2.5 มีพัฒนาการอย่างมีนัยสำคัญเมื่อเทียบกับโมเดลรุ่นก่อนหน้า และมีระดับใกล้เคียงกับซีรีส์ Claude Opus ในงานที่เกี่ยวข้องกับหลายภาษา Multi-SWE-Bench M2.5 ครองอันดับหนึ่ง

บริษัทระบุว่า M2.5 มีความสามารถ “คิดและสร้างสรรค์เหมือนสถาปนิก” โมเดลพัฒนาพฤติกรรม Spec ดั้งเดิม: ก่อนเริ่มเขียนโค้ด จะแยกย่อยฟังก์ชัน โครงสร้าง และการออกแบบ UI จากมุมมองของสถาปนิก เพื่อวางแผนเบื้องต้นที่สมบูรณ์
M2.5 ได้รับการฝึกฝนในภาษาการเขียนโปรแกรมกว่า 10 ภาษา (รวมถึง GO, C, C++, TS, Rust, Kotlin, Python, Java, JS, PHP, Lua, Dart, Ruby) และสภาพแวดล้อมจริงนับแสนแห่ง สามารถรับผิดชอบกระบวนการทั้งหมดตั้งแต่การออกแบบระบบ 0-1 ไปจนถึงการทดสอบที่สมบูรณ์ 90-100

เพื่อวัดความสามารถนี้ได้อย่างแม่นยำยิ่งขึ้น บริษัทได้อัปเกรดมาตรฐาน VIBE เป็นเวอร์ชัน Pro ที่มีความยากและท้าทายมากขึ้น เพิ่มความซับซ้อนของงาน ขอบเขตของสาขา และความแม่นยำในการประเมินอย่างมีนัยสำคัญ การประเมินรวมแสดงให้เห็นว่า M2.5 มีประสิทธิภาพใกล้เคียงกับ Opus 4.5
การค้นหาและการเรียกใช้เครื่องมือ:

ในรายการอ้างอิงที่มีชื่อเสียง เช่น BrowseComp, Wide Search M2.5 อยู่ในระดับแนวหน้าของอุตสาหกรรม นอกจากนี้ ความสามารถในการปรับตัวทั่วไปของโมเดลยังเพิ่มขึ้น แม้จะเผชิญกับสภาพแวดล้อมนั่งร้านที่ไม่คุ้นเคย ประสิทธิภาพก็ยังคงมั่นคง
ในงานค้นหาจริงระดับผู้เชี่ยวชาญ การใช้เครื่องมือค้นหามักเป็นเพียงขั้นตอนแรก งานส่วนใหญ่อยู่ที่การขุดเจาะเนื้อหาเว็บไซต์ระดับมืออาชีพอย่างลึกซึ้ง ด้วยเหตุนี้ บริษัทจึงสร้างชุดประเมิน RISE (Realistic Interactive Search Evaluation) เพื่อวัดความสามารถของโมเดลในการค้นหาและสำรวจในงานมืออาชีพจริง ผลลัพธ์ยืนยันว่า M2.5 มีประสิทธิภาพยอดเยี่ยมในงานประเภทนี้
ในการทดสอบหลายรายการ เช่น BrowseComp, Wide Search และ RISE M2.5 บรรลุผลลัพธ์ที่ดีขึ้นด้วยการบริโภครอบที่น้อยลง – ประหยัดรอบได้ประมาณ 20% เมื่อเทียบกับ M2.1 นี่แสดงว่าโมเดลไม่เพียงแค่ “ทำถูก” แต่ยังหาเส้นทางที่สั้นที่สุดไปสู่ผลลัพธ์
สถานการณ์การทำงานสำนักงาน:

บริษัทร่วมมือกับผู้เชี่ยวชาญอาวุโสในสาขาต่างๆ เช่น การเงิน กฎหมาย สังคมศาสตร์ เพื่อผนวกความรู้แฝงของอุตสาหกรรมเข้าสู่การฝึกฝนโมเดล ทำให้โมเดลมีความสามารถเพิ่มขึ้นอย่างมีนัยสำคัญในสถานการณ์การทำงานสำนักงานระดับสูง เช่น Word, PPT, การสร้างแบบจำลองทางการเงินใน Excel
ในกรอบการประเมินภายใน GDPval-MM M2.5 ได้อัตราชนะเฉลี่ย 59.0% เมื่อเทียบกับโมเดลหลักอื่นๆ
ประสิทธิภาพและต้นทุน
- การบริโภคทรัพยากรและความเร็ว: ในการประเมิน SWE-Bench Verified M2.5 ใช้โทเค็นเฉลี่ย 3.52M ต่องาน ลดลงจาก 3.72M ของ M2.1 เวลาในการรันแบบ end-to-end ลดลงจากเฉลี่ย 31.3 นาที เหลือ 22.8 นาที เพิ่มความเร็ว 37% ใกล้เคียงกับ Claude Opus 4.6 ที่ 22.9 นาที
- ต้นทุนการใช้: บริษัทเน้นย้ำว่า M2.5 เป็น “โมเดลแนวหน้าที่ไม่ต้องกังวลเรื่องต้นทุนการใช้ สามารถใช้งานได้ไม่จำกัด” ในกรณีที่เอาต์พุต 100 โทเค็นต่อวินาที การทำงานต่อเนื่องหนึ่งชั่วโมงมีค่าใช้จ่ายเพียง 1 ดอลลาร์สหรัฐฯ; หากเอาต์พุต 50 โทเค็นต่อวินาที ต้นทุนจะลดลงเหลือ 0.3 ดอลลาร์สหรัฐฯ
ติดตาม “鲸栖” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22950
