MiniMax ได้เปิดตัวโมเดลโอเพ่นซอร์สรุ่นใหม่ M2.5 โดยทางการเรียกมันว่า “โมเดลแนวหน้าอันเป็นโอเพ่นซอร์สที่ออกแบบมาสำหรับผลิตภาพในโลกแห่งความเป็นจริง”
ข้อมูลประสิทธิภาพ: เข้าใกล้ Claude Opus

ตัวชี้วัดประสิทธิภาพหลักแสดงให้เห็นว่า M2.5 ได้ก้าวเข้าสู่แถวหน้าของโมเดลระดับสูง:
* SWE-Bench Verified 80.2%: เทียบเท่ากับ Claude Opus 4.6
* BrowseComp 76.3%: ความสามารถในการค้นหาและการใช้เครื่องมือชั้นนำของอุตสาหกรรม
* Multi-SWE-Bench 51.3%: คะแนนสูงสุดสำหรับการเขียนโปรแกรมหลายภาษา
* BFCL Tool Calling 76.8%: เวิร์กโฟลว์ของเอเจนต์ที่มีความแม่นยำสูง
* ความเร็วเพิ่มขึ้น 37%: เวลาในการทำงานให้เสร็จสิ้นแบบ end-to-end ลดลงอย่างมาก

สถาปัตยกรรมทางเทคนิค: ความก้าวหน้าของการคำนวณแบบเบาบาง
ประสิทธิภาพของ M2.5 มาจากสถาปัตยกรรม Mixture of Experts (MoE) โมเดลมีพารามิเตอร์ 230 พันล้านตัว แต่ในการอนุมานแต่ละครั้งจะเปิดใช้งานเพียง 10 พันล้านพารามิเตอร์เท่านั้น ทำให้มันรักษาความลึกในการให้เหตุผลของโมเดลขนาดใหญ่ไว้ได้ ในขณะเดียวกันก็มีความคล่องตัวของโมเดลขนาดเล็ก

ในกระบวนการฝึกฝน MiniMax ได้พัฒนาเฟรมเวิร์กการเรียนรู้แบบเสริมกำลังที่เป็นกรรมสิทธิ์ชื่อ Forge วิศวกร Olive Song เปิดเผยในพอดแคสต์ ThursdAI ว่าซิสเต็มนี้ทำให้ AI ฝึกฝนการเขียนโปรแกรมและการใช้เครื่องมือในสภาพแวดล้อมการทำงานจำลองหลายพันแห่ง โดยมีรอบการฝึกสองเดือน
เพื่อรักษาความเสถียรในการฝึกฝน ทีมงานใช้วิธีการทางคณิตศาสตร์ CISPO (Clipped Importance Sampling Policy Optimization) ซึ่งรับประกันว่าโมเดลจะไม่แก้ไขมากเกินไปในระหว่างกระบวนการการเรียนรู้แบบเสริมกำลัง สุดท้ายแล้วจึงก่อให้เกิดสิ่งที่เรียกว่า “ความคิดของสถาปนิก” — การวางแผนโครงสร้างโครงการ ฟังก์ชันการทำงาน และอินเทอร์เฟซอย่างกระตือรือร้นก่อนที่จะเขียนโค้ด
การปฏิวัติราคา: จากสินค้าหรูหราสู่สินค้าที่ใช้ในชีวิตประจำวัน
MiniMax เสนอสองรุ่น:
* M2.5-Lightning: 100 tokens/วินาที, อินพุต $0.30/ล้าน tokens, เอาต์พุต $2.40/ล้าน tokens
* M2.5 มาตรฐาน: 50 tokens/วินาที, อินพุต $0.15/ล้าน tokens, เอาต์พุต $1.20/ล้าน tokens

ตามการคำนวณอย่างเป็นทางการ ต้นทุนต่องานเดียวอยู่ที่ประมาณ $0.15 ในขณะที่ Claude Opus 4.6 ต้องการ $3.00 บริษัทต่างๆ สามารถใช้เงินประมาณ 10,000 ดอลลาร์เพื่อให้ AI “พนักงาน” สี่คนทำงานต่อเนื่องตลอดทั้งปี
การประยุกต์ใช้จริง: จากแชทบอทสู่พนักงาน AI
M2.5 ได้ถูกนำไปใช้งานในวงกว้างภายใน MiniMax แล้ว ปัจจุบัน 30% ของงานของบริษัทเสร็จสิ้นโดย M2.5 และ 80% ของโค้ดที่ส่งใหม่ถูกสร้างขึ้นโดย M2.5 โมเดลได้รับการปรับให้เหมาะสมสำหรับสถานการณ์การทำงานในองค์กรโดยเฉพาะ สามารถสร้างไฟล์ Word, Excel และ PowerPoint และได้คะแนน 74.4% ด้านการสร้างแบบจำลองทางการเงิน

ทีมงานได้ร่วมมือกับผู้เชี่ยวชาญอาวุโสในสาขาการเงิน กฎหมาย และสังคมศาสตร์ เพื่อให้แน่ใจว่าโมเดลสามารถบรรลุมาตรฐานของอุตสาหกรรมได้ การกำหนดตำแหน่ง “AI ในฐานะพนักงาน” เช่นนี้ เป็นสัญลักษณ์ของการเปลี่ยนผ่านจากเครื่องมือถาม-ตอบง่ายๆ ไปสู่เอเจนต์ทำงานอิสระ
ในการทดสอบสถานการณ์จริง M2.5 สามารถดำเนินการที่ซับซ้อนได้สำเร็จ เช่น การตรวจสอบ PR ผ่าน GitHub API, การมอบหมายงานตรวจสอบโค้ดตาม git blame, การแก้ไขปัญหาการแสดงผล front-end อย่างไรก็ตาม การทดสอบยังพบปัญหาบางประการ เช่น บางครั้งอาจ push ไปยังสาขาที่ผิด หรือลืมเพิ่มป้ายกำกับโซลูชันภายใต้คำสั่งเฉพาะ

สรุป
หลังจากที่ Zhipu AI เปิดตัว GLM-5 MiniMax ซึ่งเป็นบริษัทที่ได้รับความนิยมไม่แพ้กัน ก็ได้แสดงความแข็งแกร่งอีกครั้ง ในสถานการณ์ที่ทรัพยากร GPU ค่อนข้างจำกัด ช่องว่างระหว่างบริษัทจีนและแล็บระดับสูงของสหรัฐฯ ได้ลดลงอย่างมาก และยังมีข้อได้เปรียบด้านต้นทุนที่ค่อนข้างมาก จากสถานการณ์ของโปรเจกต์เอเจนต์และโมเดลที่ฝังอยู่ในเครื่องมือเขียนโปรแกรมบางส่วนล่าสุด โมเดลจีนได้กลายเป็นหนึ่งในตัวเลือกที่จำเป็นแล้ว

แนวโน้มอีกประการหนึ่งคือ แอปพลิเคชันถาม-ตอบได้เปลี่ยนไปสู่เอเจนต์อัจฉริยะที่ทำงานอิสระและมุ่งเน้นผลลัพธ์สำหรับงานระยะยาว ซึ่งโดยพื้นฐานแล้วได้รับประโยชน์จากการปรับปรุงประสิทธิภาพของโมเดลและการลดลงของต้นทุน เมื่อตัวชี้วัดทั้งสองนี้ได้รับการปรับให้ดีขึ้นอย่างต่อเนื่อง จะมีแอปพลิเคชันมากขึ้นเรื่อยๆ ที่มุ่งไปในทิศทางนี้ พนักงานดิจิทัล บริษัทไร้คนกำลังกลายเป็นความจริง
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22951
