MiniMax M2.7 เปิดตัวครั้งใหญ่: AI Agent อเนกประสงค์ จัดการงานซับซ้อน การทำงานเป็นทีม และแก้ไขข้อบกพร่องโค้ดได้ครบครัน
หลังจากเปิดตัวโมเดล M2.5 เพียงหนึ่งเดือน MiniMax ก็ได้เปิดตัวโมเดล M2.7 รุ่นใหม่ล่าสุด การอัปเดตครั้งนี้ถือเป็นก้าวกระโดดที่สำคัญในความสามารถของโมเดลในการจัดการงานที่ซับซ้อนและการทำงานร่วมกันของเอเจนต์หลายตัว
ความสามารถในการให้เหตุผลและด้านวิศวกรรมของ M2.7 ได้รับการพัฒนาอย่างก้าวกระโดด สามารถจัดการงานแก้ไขข้อบกพร่องที่ยุ่งยากในสภาพแวดล้อมการผลิตได้ด้วยตนเอง เมื่อเทียบกับโมเดลรุ่นก่อนที่ช่วยเขียนโค้ดได้เพียงอย่างเดียว M2.7 ได้แสดงให้เห็นถึงความสามารถด้านวิศวกรรมความน่าเชื่อถือของเว็บไซต์ที่ครบวงจร — สามารถเชื่อมโยงกับระบบตรวจสอบโดยอัตโนมัติ ระบุสาเหตุของปัญหาได้อย่างแม่นยำ และเขียนสคริปต์แก้ไข เพื่อให้การดำเนินงานด้านไอทีเป็นไปโดยอัตโนมัติตั้งแต่ต้นจนจบ
ที่สำคัญกว่านั้น M2.7 มีความสามารถในการสร้างกรอบการทำงานของเอเจนต์อัจฉริยะด้วยตนเอง ผสานการคิดแบบเป็นห่วงโซ่ (Chain of Thought) กับการปฏิบัติงานเข้าด้วยกันอย่างลึกซึ้ง เปิดเส้นทางสู่การพัฒนาตนเอง ด้วยการปรับใช้กรอบความจำระยะยาว OpenClaw อย่างลึกซึ้ง ไม่ว่าจะเป็นสถานการณ์บทบาทสมมติที่ต้องการการมีส่วนร่วมทางอารมณ์ หรือความต้องการด้านระบบอัตโนมัติในสำนักงานที่ซับซ้อนมาก M2.7 ก็สามารถรับมือได้อย่างราบรื่น
ปัจจุบัน M2.7 ได้เปิดให้บริการเต็มรูปแบบบนแพลตฟอร์มเอเจนต์อัจฉริยะและแพลตฟอร์มเปิดของ MiniMax แล้ว
จุดเด่นของความสามารถหลัก
การอัปเกรดหลักของ M2.7 แสดงให้เห็นในด้านต่อไปนี้:
1. การปฏิบัติตามคำสั่งและการทำงานร่วมกันของเอเจนต์หลายตัว
โมเดลแสดงความมั่นคงอย่างมากในการปฏิบัติตามคำสั่งในสภาพแวดล้อมที่ซับซ้อนซึ่งมีทักษะจำนวนมหาศาล การทดสอบอย่างเป็นทางการแสดงให้เห็นว่า ในสถานการณ์ที่มีทักษะที่ซับซ้อน 40 รายการ อัตราการปฏิบัติตามคำสั่งยังคงอยู่ที่ 97% ในการทดสอบมาตรฐาน MM-Claw อัตราความถูกต้องอยู่ที่ 62.7% ซึ่งประสิทธิภาพใกล้เคียงกับโมเดลชั้นนำ
นอกจากนี้ M2.7 รองรับการทำงานร่วมกันของเอเจนต์หลายตัวโดยธรรมชาติ สามารถจัดตั้งทีมเอเจนต์อัจฉริยะได้โดยไม่ต้องพึ่งพากรอบงานภายนอก โมเดลสามารถยึดติดกับตัวตนของแต่ละเอเจนต์ได้อย่างมั่นคงและตัดสินใจได้ด้วยตนเอง โดยทำงานร่วมกันเพื่อแยกย่อยและดำเนินงานที่มีกระบวนการยาว

2. ความสามารถด้านโค้ดได้รับการอัปเกรดอย่างครอบคลุม
ความสามารถด้านโค้ดได้ขยายจากแค่การสร้างโค้ด ไปสู่ด้านขั้นสูง เช่น การปรับโครงสร้างโค้ดใหม่ การป้องกันช่องโหว่ และการแก้ไขข้อบกพร่องของระบบที่ซับซ้อน ในการทดสอบ SWE-Pro อัตราความถูกต้องเทียบเท่ากับโมเดลโค้ดชั้นนำของอุตสาหกรรม ในการทดสอบมาตรฐาน VIBE-Pro สำหรับการส่งมอบโครงการแบบ end-to-end ก็ได้คะแนนสูงเช่นกัน
ยกตัวอย่างสถานการณ์ด้านวิศวกรรมความน่าเชื่อถือของเว็บไซต์ M2.7 สามารถเชื่อมโยงข้อมูลการตรวจสอบโดยอัตโนมัติหลังจากได้รับการแจ้งเตือน วิเคราะห์สายการเรียก (call chain) ค้นหาฐานข้อมูลเพื่อระบุสาเหตุของปัญหา ตัวอย่างเช่น หลังจากพบว่าปัญหาคอขวดด้านประสิทธิภาพเกิดจากการขาดดัชนี (index) มันสามารถใช้วิธีการสร้างดัชนีแบบไม่บล็อก (non-blocking) เป็นลำดับแรกเพื่อกู้คืนบริการได้อย่างรวดเร็ว และส่งคำขอรวมโค้ด (merge request) ที่เป็นมาตรฐาน
3. การประมวลผลเอกสารสำนักงานที่ซับซ้อน
M2.7 สามารถจัดการงานแก้ไขหลายรอบที่ซับซ้อนของ Excel, Word และ PowerPoint ได้อย่างคล่องแคล่ว ในการประเมินที่เกี่ยวข้อง ผลการดำเนินงานอยู่ในอันดับที่หนึ่งในหมวดโมเดลโอเพนซอร์ส และแซงหน้าหลักโมเดลเชิงพาณิชย์หลัก
ในกรณีศึกษาเชิงปฏิบัติ หลังจากให้โมเดลมีข้อมูลรายงานประจำปีของบริษัทและข้อมูลการประชุมสื่อสาร มันสามารถเปรียบเทียบรายงานวิจัยอุตสาหกรรมด้วยตนเอง สร้างแบบจำลองการคาดการณ์รายได้ จากนั้นสร้างตาราง Pivot Table ใน Excel เขียนรายงานการวิจัยในรูปแบบ Word และสร้างงานนำเสนอที่พร้อมใช้สำหรับการรายงานได้โดยอิงจากเทมเพลต แสดงให้เห็นถึงระดับความสามารถของนักวิเคราะห์ขั้นต้น
4. การเล่นบทบาทสมมติและความจำระยะยาว
ในสถานการณ์การเล่นบทบาทสมมติ M2.7 ได้เสริมความมั่นคงของการกำหนดบทบาทและความฉลาดทางอารมณ์ (EQ) ในการสนทนาอย่างมาก มันรองรับสิบภาษาตามธรรมชาติ และสามารถรักษาความเป็นตัวตนที่สม่ำเสมอในการสื่อสารข้ามภาษาได้ หลังจากปรับใช้กรอบความจำระยะยาวอย่างลึกซึ้ง มันแสดงผลได้ดีเป็นพิเศษในสถานการณ์ปฏิสัมพันธ์ที่ต้องการการยืนยันตัวตนอย่างต่อเนื่อง
จากคุณลักษณะนี้ ทางบริษัทได้ออกแบบและเปิดตัวระบบปฏิสัมพันธ์ OpenRoom ซึ่งฝัง AI ลงในพื้นที่อินเทอร์เฟซกราฟิกที่สามารถโต้ตอบได้ ในสถานการณ์เสมือนจริงที่กำหนดไว้ล่วงหน้า การสนทนาสามารถกระตุ้นการตอบสนองทางภาพและการโต้ตอบกับสภาพแวดล้อมแบบเรียลไทม์ได้ ซึ่งช่วยเพิ่มความรู้สึกมีส่วนร่วมอย่างมาก
การทดสอบภาคปฏิบัติ: การทำงานร่วมกันของเอเจนต์หลายตัวและการแก้ไขข้อบกพร่องทางวิศวกรรม
การทดสอบที่หนึ่ง: จำลองเกมหลายเอเจนต์
การทดสอบแรกมีวัตถุประสงค์เพื่อตรวจสอบความสามารถในการทำงานร่วมกันของเอเจนต์หลายตัวโดยธรรมชาติและการวางแผนภาพรวมของ M2.7 งานกำหนดให้โมเดลจำลองห้องเกม “ใครคือสายลับ” ต้องจัดการกับเอเจนต์ 1 คนที่เป็นผู้ดำเนินรายการและเอเจนต์ผู้เล่น 5 คน เขียนไฟล์บุคลิกภาพแยกกันสำหรับแต่ละบทบาท และพัฒนาแบ็กเอนด์สำหรับการจัดตารางงานและฟรอนต์เอนด์สำหรับการแสดงผล
งานนี้ทดสอบความสามารถของโมเดลในการทำความเข้าใจคำสั่ง ความมั่นคงของการเล่นบทบาทสมมติ และความสามารถในการพัฒนาแบบฟูลสแตก

M2.7 ให้ผลลัพธ์เป็นโครงสร้างแผนงานที่สมบูรณ์และแผนการดำเนินงานที่ชัดเจนอย่างรวดเร็ว

ตามข้อกำหนดการปรับเปลี่ยน โมเดลสร้างอินเทอร์เฟซเกมที่มีสไตล์เฉพาะในที่สุด และกำหนดค่าบทบาทเอเจนต์ทั้งหมดสำเร็จ ในระหว่างกระบวนการทำงาน เอเจนต์ทั้งหกตัวดำเนินกระบวนการเกมทั้งหมดโดยอัตโนมัติตามกฎ


การทดสอบที่สอง: การแก้ไขข้อบกพร่องในสภาพแวดล้อมการผลิต
การทดสอบที่สองจำลองสภาพแวดล้อมการผลิตจริง เพื่อตรวจสอบความสามารถของ M2.7 ในการแก้ไขข้อบกพร่องของระบบและการให้เหตุผลแบบองค์รวมในสถานการณ์ทางวิศวกรรมที่เข้มข้น งานให้ “บันทึกสถานที่เกิดเหตุ” ที่มีไฟล์ระบบที่ซับซ้อนสี่ไฟล์ กำหนดให้โมเดลทำหน้าที่เหมือนสถาปนิกอาวุโส ค้นหาสาเหตุโดยตรงของความล้มเหลวและรากเหง้าของปัญหาประสิทธิภาพฐานข้อมูล และให้คำสั่งตรวจสอบและโค้ดแก้ไขที่ปลอดภัย

เมื่อเผชิญกับบันทึก (log) และไฟล์กำหนดค่าที่ซับซ้อนมากมาย M2.7 ระบุสาเหตุรากเหง้าที่ทำให้การใช้ CPU ของฐานข้อมูลพุ่งสูงขึ้นได้อย่างรวดเร็ว คำสั่งวิเคราะห์การสืบค้นฐานข้อมูลที่ให้มามีประสิทธิภาพและแม่นยำ

ที่สำคัญเป็นพิเศษคือ เมื่อให้สคริปต์กู้คืนฉุกเฉิน M2.7 ใช้ไวยากรณ์ที่รองรับการดำเนินการแบบไม่บล็อก (non-blocking) ในการสร้างดัชนีอย่างมืออาชีพ ปฏิบัติตามหลักเกณฑ์ความปลอดภัยของสภาพแวดล้อมการผลิตที่ “ห้ามล็อกตาราง (lock table) อย่างเคร่งครัด”

ในขณะเดียวกัน โมเดลให้ผลลัพธ์เป็นโค้ดไฟล์การย้ายฐานข้อมูล (migration file) ที่สมบูรณ์และเป็นมาตรฐาน ซึ่งสามารถใช้ส่งเพื่อตรวจสอบโค้ด (code review) ได้โดยตรง
CREATE INDEX CONCURRENTLY IF NOT EXISTS
idx_products_category_created_at
ON public.products (category, created_at DESC);
-- Verify the index was built successfully and is valid
-- (CONCURRENTLY-built indexes may show indisvalid=false until background build completes)
DO $$
BEGIN
IF EXISTS (
SELECT 1 FROM pg_indexes
WHERE indexname = 'idx_products_category_created_at'
AND tablename = 'products'
) THEN
RAISE NOTICE 'Index idx_products_category_created_at created successfully on products table.';
ELSE
RAISE EXCEPTION 'Index creation failed or did not complete. Check pg_stat_progress_create_index.';
END IF;
END $$;
กระบวนการแก้ไขข้อบกพร่องทั้งหมดแสดงให้เห็นถึงความสามารถอันแข็งแกร่งของ M2.7 ในการแก้ไขปัญหาของระบบที่ซับซ้อน
วิวัฒนาการทางเทคนิค: มุ่งสู่การสร้างตนเอง
เบื้องหลังความสามารถที่น่าประทับใจของ M2.7 คือตรรกะของการวิวัฒนาการทางเทคนิคขั้นพื้นฐาน สาระสำคัญคือโมเดลมีความสามารถในการสร้างกรอบการทำงานของเอเจนต์อัจฉริยะที่ซับซ้อนด้วยตนเอง
กรอบการทำงานของเอเจนต์อัจฉริยะที่กล่าวถึงคือชุดเครื่องมือและอินเทอร์เฟซการทำงานที่โมเดลใช้โต้ตอบกับสภาพแวดล้อมการคำนวณจริง และ OpenClaw ก็คือการนำกรอบงานประเภทนี้ไปปฏิบัติ
พูดง่ายๆ ก็คือ โมเดลแบบดั้งเดิมมักใช้เครื่องมือที่กำหนดไว้ล่วงหน้าอย่างเฉยเมย ในขณะที่ MiniMax M2.7 มีความสามารถในการสร้างเครื่องมือด้วยตนเองแล้ว
ยกตัวอย่างการทดลองการเรียนรู้แบบเสริมแรง (Reinforcement Learning) นักวิจัยเพียงแค่ให้แนวคิดเริ่มต้น M2.7 ก็สามารถเริ่มต้นและเรียกใช้กระบวนการทดลองทั้งหมดได้ด้วยตนเอง มันสามารถตรวจสอบสถานะของการทดลองอย่างต่อเนื่อง วิเคราะห์บันทึก (log) แก้ไขข้อบกพร่อง แก้ไขโค้ดโดยอัตโนมัติ และแม้กระทั่งดำเนินการขั้นตอนต่อไป เช่น การส่งคำขอรวมโค้ด (merge request) และการทดสอบเบื้องต้น (smoke test) ได้ด้วยตนเอง

ไม่เพียงเท่านั้น M2.7 ไม่เพียงแต่สร้างเครื่องมือได้ แต่ยังสามารถปรับปรุงกรอบการทำงานหลัก (Harness) ของมันได้อย่างกระตือรือร้น เพื่ออัปเกรดชุดเครื่องมือโดยรวม ในการทดสอบปรับปรุงโค้ดภายในของ Agent Harness M2.7 ตัดสินใจด้วยตนเองตลอดกระบวนการ สำรวจเส้นทางการปรับปรุงผ่านการลองผิดลองถูกอย่างต่อเนื่องจนสำเร็จ ทำให้ประสิทธิภาพของโมเดลในชุดการประเมินภายในเพิ่มขึ้น 30%
ก้าวไปอีกขั้น M2.7 สามารถฝึกฝนและอัปเกรดโมเดลแมชชีนเลิร์นนิงได้ด้วยตนเอง ซึ่งเป็นกุญแจสำคัญในการปรับปรุงประสิทธิภาพของอัลกอริทึมอย่างต่อเนื่อง มันอาศัยกลไกความจำระยะสั้น การให้ข้อเสนอแนะตนเอง และการปรับปรุงตนเอง สร้างเอกสารสรุปหลังจากแต่ละรอบงานเสร็จสิ้น บันทึกบทเรียนที่ได้รับและให้คำแนะนำสำหรับรอบถัดไป
ในการแข่งขัน MLE Lite ที่ท้าทายอย่างมาก (ประกอบด้วยโจทย์ยากระดับสูง 22 ข้อ) M2.7 ได้รับมอบหมายให้มีเวลา 24 ชั่วโมงเพื่อปรับปรุงโมเดลแมชชีนเลิร์นนิงด้วยตนเอง และในที่สุดก็ได้ผลลัพธ์เป็น 9 เหรียญทอง 5 เหรียญเงิน และ 1 เหรียญทองแดง
ปัจจุบัน อุตสาหกรรมมุ่งความสนใจไปที่การติดตามกรอบงานโอเพนซอร์ส (เช่น การปรับใช้ OpenClaw) โดยคาดหวังว่าจะเสริมสร้างประสบการณ์การใช้งานได้อย่างรวดเร็ว ซึ่งโดยพื้นฐานแล้วยังคงอยู่ในระดับการสอนโมเดลให้ใช้เครื่องมือที่มีอยู่ของมนุษย์
อย่างไรก็ตาม MiniMax ได้ก้าวเข้าสู่ประเด็นสำคัญถัดไปก่อนใครแล้ว นั่นคือการทำให้โมเดลมีความสามารถในการสร้างเครื่องมือและดำเนินการวิจัยและพัฒนาด้วยตนเอง แม้กระทั่ง ทำให้มันกลายเป็นส่วนหนึ่งที่สามารถขับเคลื่อนได้ในห่วงโซ่การวิจัยและพัฒนาของตัวมันเอง ความสามารถในการวิวัฒนาการอย่างกระตือรือร้นเช่นนี้ กำลังก่อให้เกิดจุดแบ่งแยกของขีดความสามารถหลักของโมเดลขนาดใหญ่รุ่นต่อไป
MiniMax M2.7 ที่มีความสามารถเช่นนี้ ได้เปิดยุคใหม่ของการปรับปรุงโมเดลด้วยตนเองไปแล้วเป็นรายแรก
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/26319
