MiniMax M2.5 การทดสอบฉากจริงในภาษาจีน: อัตราความแม่นยำเพิ่มขึ้น 2.1% ความเร็วในการตอบสนองเพิ่มขึ้นเป็นสองเท่า อัตราส่วนประสิทธิภาพต้นทุนได้รับการปรับปรุง

2026年2月13日 am11:48 • ข่าวสารอุตสาหกรรม AI • 247 views

MiniMax ได้เปิดตัวเวอร์ชันใหม่ MiniMax M2.5 ก่อนช่วงวันหยุดตรุษจีน โดยทางบริษัทระบุว่าโมเดลนี้ได้รับการฝึกฝนผ่านการเรียนรู้แบบเสริมกำลังขนาดใหญ่ในสภาพแวดล้อมที่ซับซ้อนและหลากหลายนับแสนกรณี ซึ่งทำให้มีความสามารถในระดับแนวหน้าของอุตสาหกรรมในด้านต่างๆ เช่น การเขียนโปรแกรม การเรียกใช้เครื่องมือและการค้นหา รวมถึงสถานการณ์การทำงานด้านประสิทธิผล (Productivity) อย่างการทำงานสำนักงาน เราได้ทำการประเมินเปรียบเทียบอย่างครอบคลุมระหว่าง MiniMax M2.5 และรุ่นก่อนหน้า MiniMax M2.1 ในบริบทภาษาไทย โดยทดสอบความแตกต่างในตัวชี้วัดสำคัญ เช่น ความแม่นยำ เวลาตอบสนอง การใช้ token และต้นทุน

ควรชี้แจงว่า การประเมินครั้งนี้มุ่งเน้นไปที่สถานการณ์ความสามารถรอบด้านในภาษาไทย ครอบคลุมมิติต่างๆ เช่น การศึกษา การแพทย์ การเงิน กฎหมาย การให้เหตุผลและการคำนวณทางคณิตศาสตร์ ภาษาและการปฏิบัติตามคำสั่ง การเรียกใช้เครื่องมือ Agent เป็นต้น ส่วนความสามารถในสถานการณ์เชิง Agentic ที่ MiniMax เน้นย้ำเป็นพิเศษ เช่น การเขียนโปรแกรม การค้นหาที่ซับซ้อน และการทำงานสำนักงาน อาจไม่ได้แสดงให้เห็นถึงข้อได้เปรียบที่แท้จริงอย่างเต็มที่ เนื่องจากขอบเขตการประเมินในครั้งนี้

ผลการประเมิน MiniMax M2.5:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 65.7%
* เวลาเฉลี่ย (ต่อการเรียกใช้): 53 วินาที
* Token เฉลี่ย (จำนวน token ที่ใช้ต่อการเรียกใช้): 3307
* ค่าใช้จ่ายเฉลี่ย (ค่าใช้จ่ายต่อการเรียกใช้หนึ่งพันครั้ง เป็นเงินหยวน): 26.3

1. การเปรียบเทียบระหว่างเวอร์ชันใหม่และเก่า

เริ่มต้นด้วยการเปรียบเทียบกับเวอร์ชันก่อนหน้า (MiniMax-M2.1) ข้อมูลมีดังนี้:
MiniMax M2.5 การทดสอบฉากจริงในภาษาจีน: อัตราความแม่นยำเพิ่มขึ้น 2.1% ความเร็วในการตอบสนองเพิ่มขึ้นเป็นสองเท่า อัตราส่วนประสิทธิภาพต้นทุนได้รับการปรับปรุง
แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence https://github.com/jeinlee1991/chinese-llm-benchmark
หน่วยราคาเอาต์พุต: หยวน/ล้าน token

ประสิทธิภาพโดยรวมเพิ่มขึ้นอย่างมั่นคง: ความแม่นยำของเวอร์ชันใหม่เพิ่มขึ้นจาก 63.6% เป็น 65.7% เพิ่มขึ้น 2.1 จุดเปอร์เซ็นต์ อันดับขยับจากที่ 57 ขึ้นมาอยู่ที่ 41 ขยับขึ้น 16 อันดับ
ความเร็วในการตอบสนองได้รับการปรับปรุงอย่างมาก: เวลาเฉลี่ยต่อการเรียกใช้ลดลงจาก 111 วินาที เหลือ 53 วินาที เพิ่มความเร็วประมาณ 52% ประสบการณ์ผู้ใช้ดีขึ้นอย่างเห็นได้ชัด สอดคล้องกับที่บริษัทอ้างว่า “ทำงานเสร็จเร็วกว่า M2.1 ถึง 37%”
ประสิทธิภาพการใช้ Token ปรับปรุงเล็กน้อย: จำนวน token เฉลี่ยที่ใช้ต่อการเรียกใช้ลดลงจาก 3525 เหลือ 3307 ลดลงประมาณ 6.2% แสดงว่าเวอร์ชันใหม่มีประสิทธิภาพการใช้ token ในการให้เหตุผลที่ดีขึ้น
ต้นทุนลดลงเล็กน้อย: ค่าใช้จ่ายต่อการเรียกใช้หนึ่งพันครั้งลดลงจาก 28.1 หยวน เหลือ 26.3 หยวน ลดลงประมาณ 6.4% แม้จะไม่มาก แต่เมื่อรวมกับการเพิ่มความเร็วในการตอบสนองอย่างมาก อัตราส่วนประสิทธิภาพต้นทุนโดยรวมก็ดีขึ้น
ประสิทธิภาพในสาขาวิชาชีพแตกต่างกัน: เมื่อดูในรายละเอียด เวอร์ชันใหม่มีพัฒนาการในสาขาส่วนใหญ่ โดยเฉพาะด้าน “การแพทย์และสุขภาพจิต” เพิ่มขึ้นอย่างมีนัยสำคัญจาก 70.5% เป็น 73.7% (+3.2%) “กฎหมายและงานราชการ” จาก 74.3% เป็น 77.0% (+2.7%) “การศึกษา” จาก 40.0% เป็น 42.3% (+2.3%)
ความสามารถของ Agent เพิ่มขึ้นอย่างเด่นชัด: สิ่งที่น่าสนใจคือ ความสามารถด้าน “Agent และการเรียกใช้เครื่องมือ” เพิ่มขึ้นอย่างมากจาก 55.9% เป็น 66.5% เพิ่มขึ้น 10.6 จุดเปอร์เซ็นต์ สอดคล้องกับทิศทางการปรับปรุงสถานการณ์เชิง Agentic ที่บริษัทเน้นย้ำ และยืนยันความก้าวหน้าของโมเดลในการใช้เครื่องมือและการแยกย่อยงาน
บางสาขามีการลดลง: เวอร์ชันใหม่ในสาขา “การเงิน” ลดลงจาก 76.7% เป็น 71.2% (-5.5%) “ภาษาและการปฏิบัติตามคำสั่ง” ก็ลดลงจาก 62.5% เป็น 59.0% (-3.5%) แสดงให้เห็นว่ามีการแลกเปลี่ยนความสามารถบางประการในกระบวนการปรับปรุงโดยรวม

2. เปรียบเทียบกับโมเดลอื่นๆ

ในสถานการณ์การแข่งขันของโมเดลใหญ่ (Large Model) หลักในปัจจุบัน MiniMax M2.5 มีประสิทธิภาพอย่างไร? เราวิเคราะห์เปรียบเทียบในแนวนอนจากสามมิติ: ระดับต้นทุนใกล้เคียงกัน การอัปเดตจากรุ่นเก่าสู่รุ่นใหม่ โมเดลโอเพนซอร์สและโมเดลปิด (การประเมินนี้เน้นบริบทภาษาไทย ประสิทธิภาพของโมเดลในภาษาอื่นและสาขาวิชาชีพอื่นอาจแตกต่าง):
MiniMax M2.5 การทดสอบฉากจริงในภาษาจีน: อัตราความแม่นยำเพิ่มขึ้น 2.1% ความเร็วในการตอบสนองเพิ่มขึ้นเป็นสองเท่า อัตราส่วนประสิทธิภาพต้นทุนได้รับการปรับปรุง
แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence https://github.com/jeinlee1991/chinese-llm-benchmark

เปรียบเทียบระดับต้นทุนใกล้เคียงกัน:
* ตำแหน่งในระดับต้นทุน: MiniMax M2.5 มีต้นทุน 26.3 หยวน/พันครั้ง อยู่ในช่วงต้นทุนต่ำถึงกลาง เมื่อเทียบกับ qwen3-235b-a22b-thinking-2507 ที่มีต้นทุนใกล้เคียง (61.2 หยวน) MiniMax M2.5 มีต้นทุนต่ำกว่าและมีความแม่นยำสูงกว่าเล็กน้อย (65.7% vs 65.5% ใกล้เคียงกัน)
* อัตราส่วนประสิทธิภาพต้นทุนค่อนข้างดี: เมื่อเทียบกับโมเดลอื่นในระดับเดียวกัน gpt-5.2-high (94.1 หยวน) มีความแม่นยำ 67.4% gpt-5-2025-08-07 (31.9 หยวน) มีความแม่นยำ 68.9% MiniMax M2.5 มีข้อได้เปรียบในด้านการควบคุมต้นทุน
* ข้อได้เปรียบด้านความเร็วชัดเจน: เวลาตอบสนอง 53 วินาที มีประสิทธิภาพดีในโมเดลระดับเดียวกัน ชัดเจนว่าเร็วกว่าโมเดลเช่น qwen3-235b-a22b-thinking-2507 (143 วินาที), Kimi-K2-Thinking (333 วินาที)

เปรียบเทียบการอัปเดตจากรุ่นเก่าสู่รุ่นใหม่:
* ผลการอัปเกรดเวอร์ชันมีนัยสำคัญ: จาก MiniMax M2.1 เป็น MiniMax M2.5 อันดับขยับจากที่ 57 ขึ้นมาอยู่ที่ 41 ความแม่นยำเพิ่มขึ้น 2.1 จุดเปอร์เซ็นต์ ความเร็วในการตอบสนองเพิ่มขึ้น 52% ความก้าวหน้าโดยรวมเห็นได้ชัด
* ความเร็วในการอัปเดตเป็นผู้นำในอุตสาหกรรม: บริษัทระบุว่าในช่วง 108 วันที่ผ่านมา ได้เปิดตัวสามเวอร์ชันติดต่อกันคือ M2, M2.1 และ M2.5 ความสามารถของโมเดลพัฒนาอย่างต่อเนื่องและรวดเร็ว ความเร็วในการก้าวหน้านี้โดดเด่นในอุตสาหกรรม
* เปรียบเทียบกับโมเดลใหม่ที่เปิดตัวในช่วงเวลาใกล้เคียง: เมื่อเทียบกับเวอร์ชันใหม่อื่นๆ ที่เพิ่งเปิดตัว เช่น doubao-seed-1-8-251215 (71.7%), GLM-4.7 (71.5%), ERNIE-5.0 (70.9%) ความแม่นยำ 65.7% ของ MiniMax M2.5 ยังมีช่องว่างอยู่บ้าง แสดงว่ายังมีพื้นที่สำหรับการพัฒนาด้านความสามารถรอบด้านในภาษาไทย

เปรียบเทียบโมเดลโอเพนซอร์สและโมเดลปิด:
* ตำแหน่งของโมเดลปิด: MiniMax M2.5 ในฐานะโมเดลปิดเชิงพาณิชย์ เมื่อเทียบกับโมเดลปิดอื่นๆ เช่น doubao-seed-1-8-251215 (71.7%), gemini-3-pro-preview (72.5%) มีช่องว่างความแม่นยำประมาณ 5-7 จุดเปอร์เซ็นต์
* การแข่งขันกับโมเดลโอเพนซอร์ส: เมื่อเทียบกับโมเดลโอเพนซอร์ส เช่น DeepSeek-V3.2-Think (70.9%), DeepSeek-R1-0528 (65.9%) MiniMax M2.5 มีระดับใกล้เคียงกับหลัง แต่มีข้อได้เปรียบด้านต้นทุน (26.3 หยวน vs 48 หยวน)
* สาขาที่มีข้อได้เปรียบเฉพาะ: แม้จะมีประสิทธิภาพความแม่นยำรอบด้านในภาษาไทยอยู่ในระดับปานกลาง แต่ MiniMax M2.5 มีประสิทธิภาพโดดเด่นในด้านการเรียกใช้เครื่องมือ Agent (66.5%) ซึ่งสอดคล้องกับตำแหน่งผลิตภัณฑ์ของบริษัทที่ว่า “เกิดมาสำหรับยุค Agent”

3. การประเมินโดยบริษัท

จากข้อมูลการประเมินที่ MiniMax เปิดเผย (https://minimaxi.com/news/minimax-m25) MiniMax M2.5 ได้รับผลลัพธ์ที่น่าประทับใจในการทดสอบมาตรฐานระดับนานาชาติหลายรายการ:

ความสามารถในการเขียนโปรแกรม:
ในการทดสอบหลักด้านการเขียนโปรแกรม M2.5 มีพัฒนาการอย่างมีนัยสำคัญเมื่อเทียบกับโมเดลรุ่นก่อนหน้า และมีระดับใกล้เคียงกับซีรีส์ Claude Opus ในงานที่เกี่ยวข้องกับหลายภาษา Multi-SWE-Bench M2.5 ครองอันดับหนึ่ง
MiniMax M2.5 การทดสอบฉากจริงในภาษาจีน: อัตราความแม่นยำเพิ่มขึ้น 2.1% ความเร็วในการตอบสนองเพิ่มขึ้นเป็นสองเท่า อัตราส่วนประสิทธิภาพต้นทุนได้รับการปรับปรุง
บริษัทระบุว่า M2.5 มีความสามารถ “คิดและสร้างสรรค์เหมือนสถาปนิก” โมเดลพัฒนาพฤติกรรม Spec ดั้งเดิม: ก่อนเริ่มเขียนโค้ด จะแยกย่อยฟังก์ชัน โครงสร้าง และการออกแบบ UI จากมุมมองของสถาปนิก เพื่อวางแผนเบื้องต้นที่สมบูรณ์
M2.5 ได้รับการฝึกฝนในภาษาการเขียนโปรแกรมกว่า 10 ภาษา (รวมถึง GO, C, C++, TS, Rust, Kotlin, Python, Java, JS, PHP, Lua, Dart, Ruby) และสภาพแวดล้อมจริงนับแสนกรณี สามารถรับมือกับกระบวนการทั้งหมดตั้งแต่การออกแบบระบบ 0-1 ไปจนถึงการทดสอบที่สมบูรณ์ 90-100
MiniMax M2.5 การทดสอบฉากจริงในภาษาจีน: อัตราความแม่นยำเพิ่มขึ้น 2.1% ความเร็วในการตอบสนองเพิ่มขึ้นเป็นสองเท่า อัตราส่วนประสิทธิภาพต้นทุนได้รับการปรับปรุง
เพื่อวัดความสามารถนี้อย่างแม่นยำยิ่งขึ้น บริษัทได้อัปเกรดมาตรฐาน VIBE เป็นเวอร์ชัน Pro ที่มีความยากและท้าทายมากขึ้น เพิ่มความซับซ้อนของงาน ขอบเขตของสาขา และความแม่นยำในการประเมินอย่างมีนัยสำคัญ การประเมินรวมแสดงให้เห็นว่า M2.5 มีประสิทธิภาพใกล้เคียงกับ Opus 4.5

การค้นหาและการเรียกใช้เครื่องมือ:
MiniMax M2.5 การทดสอบฉากจริงในภาษาจีน: อัตราความแม่นยำเพิ่มขึ้น 2.1% ความเร็วในการตอบสนองเพิ่มขึ้นเป็นสองเท่า อัตราส่วนประสิทธิภาพต้นทุนได้รับการปรับปรุง
ในรายการอ้างอิงที่มีชื่อเสียงเช่น BrowseComp, Wide Search M2.5 อยู่ในระดับแนวหน้าของอุตสาหกรรม นอกจากนี้ ความสามารถในการปรับตัวทั่วไป (Generalization) ของโมเดลยังเพิ่มขึ้น แม้จะเผชิญกับสภาพแวดล้อมนั่งร้าน (Scaffolding) ที่ไม่คุ้นเคย ประสิทธิภาพก็ยังคงมั่นคง
ในงานค้นหาจริงระดับผู้เชี่ยวชาญ การใช้เครื่องมือค้นหามักเป็นเพียงขั้นตอนแรก งานส่วนใหญ่อยู่ที่การขุดเจาะเนื้อหาเว็บไซต์ระดับลึกในสาขาวิชาชีพ เพื่อจุดประสงค์นี้ บริษัทได้สร้างชุดประเมิน RISE (Realistic Interactive Search Evaluation) เพื่อวัดความสามารถของโมเดลในการค้นหาและสำรวจในงานวิชาชีพจริง ผลการทดสอบยืนยันว่า M2.5 มีประสิทธิภาพยอดเยี่ยมในงานประเภทนี้
ในการทดสอบหลายรายการ เช่น BrowseComp, Wide Search และ RISE M2.5 ได้รับผลลัพธ์ที่ดีขึ้นด้วยการใช้รอบ (Turn) น้อยลง ประหยัดรอบได้ประมาณ 20% เมื่อเทียบกับ M2.1 ซึ่งแสดงว่าโมเดลไม่เพียงแค่ “ทำถูก” แต่ยังหาเส้นทางที่สั้นที่สุดไปสู่ผลลัพธ์

สถานการณ์การทำงานสำนักงาน:

MiniMax M2.5 การทดสอบฉากจริงในภาษาจีน: อัตราความแม่นยำเพิ่มขึ้น 2.1% ความเร็วในการตอบสนองเพิ่มขึ้นเป็นสองเท่า อัตราส่วนประสิทธิภาพต้นทุนได้รับการปรับปรุง

บริษัทได้ร่วมมือกับผู้เชี่ยวชาญที่มีประสบการณ์ในสาขาต่างๆ เช่น การเงิน กฎหมาย สังคมศาสตร์ เพื่อผนวกความรู้แฝง (Tacit Knowledge) ของอุตสาหกรรมเข้าสู่การฝึกโมเดล ทำให้มีความสามารถเพิ่มขึ้นอย่างมีนัยสำคัญในสถานการณ์การทำงานสำนักงานระดับสูง เช่น การใช้ Word, PPT, การสร้างแบบจำลองทางการเงินใน Excel

ในกรอบการประเมินภายใน GDPval-MM M2.5 ได้อัตราชนะเฉลี่ย 59.0% เมื่อเทียบกับโมเดลหลักอื่นๆ

ประสิทธิภาพและต้นทุน

การใช้ทรัพยากรและความเร็ว: ในการประเมิน SWE-Bench Verified M2.5 ใช้ token เฉลี่ย 3.52M ต่องาน ลดลงจาก 3.72M ของ M2.1 เวลาในการทำงานแบบ End-to-end ลดลงจากเฉลี่ย 31.3 นาที เหลือ 22.8 นาที เพิ่มความเร็ว 37% ซึ่งใกล้เคียงกับ Claude Opus 4.6 ที่ 22.9 นาที
ข้อได้เปรียบด้านต้นทุน: บริษัทเน้นย้ำว่า M2.5 เป็น “โมเดลแนวหน้าที่แรกที่ใช้ได้โดยไม่ต้องกังวลเรื่องต้นทุนการใช้งาน และสามารถใช้งานได้ไม่จำกัด” ด้วยอัตราการส่งออก 100 token ต่อวินาที ต้นทุนต่อการทำงานต่อเนื่องหนึ่งชั่วโมงประมาณ 1 ดอลลาร์สหรัฐ หากส่งออกด้วยอัตรา 50 token ต่อวินาที ต้นทุนต่อชั่วโมงเพียง 0.3 ดอลลาร์สหรัฐ

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง