วันนี้ Moon’s Dark Side ได้เปิดตัวโมเดลโค้ดล่าสุดอย่างเป็นทางการในรูปแบบโอเพนซอร์ส ชื่อว่า Kimi K2.6
โมเดลนี้แสดงผลโดดเด่นในการทดสอบมาตรฐานด้านการเขียนโปรแกรมและเอเจนต์หลายรายการ แซงหน้าข้ามโมเดลปิดต้นแบบหลักอย่าง GPT-4o และ Claude 3.5 Sonnet พร้อมกันนี้ K2.6 ยังแสดงให้เห็นถึงความสามารถที่เพิ่มขึ้นอย่างมีนัยสำคัญในด้านการเข้ารหัสระยะยาวและการทำงานร่วมกันของเอเจนต์ขนาดใหญ่
ผลการทดสอบมาตรฐาน
ในการทดสอบมาตรฐานที่เกี่ยวข้องกับการเขียนโปรแกรมและเอเจนต์ K2.6 ได้รับคะแนนนำในทุกด้าน


นอกจากงานด้านการเข้ารหัสและเอเจนต์แล้ว K2.6 ยังทำได้ดีในงานด้านการให้เหตุผลและการมองเห็น:
* Toolathlon: 50.0
* MathVision w/ Python: 93.2
* Charxiv w/ Python: 86.7
ผู้ใช้ในชุมชนได้เปรียบเทียบมันกับโมเดลขั้นสูงหลายรุ่น และเห็นว่า K2.6 เป็นโมเดลที่มีประสิทธิภาพโดยรวมยอดเยี่ยม


การเขียนโปรแกรมระยะยาว: เข้ารหัสต่อเนื่อง 12 ชั่วโมง
K2.6 ทำได้สำเร็จในงานโค้ดระยะยาว เมื่อเผชิญกับภาษาต่างๆ เช่น Rust, Go, Python และสถานการณ์ที่หลากหลาย เช่น front-end, operations K2.6 แสดงให้เห็นถึงความสามารถในการปรับตัวที่น่าเชื่อถือ
ในการท้าทายอย่างเป็นทางการครั้งหนึ่ง K2.6 ในสภาพแวดล้อมท้องถิ่น ใช้เวลา 12 ชั่วโมง ผ่านการวนซ้ำ 14 รอบ และการเรียกใช้เครื่องมือมากกว่า 4000 ครั้ง เพื่อทำงานดาวน์โหลดและปรับใช้โมเดล Qwen3.5-0.8B ในกระบวนการ มันเลือกใช้ ภาษา Zig ในการนำไปใช้ใหม่และปรับปรุงกระบวนการอนุมาน สุดท้ายเพิ่มปริมาณงานจาก 15 tokens/s เป็น 193 tokens/s ซึ่งมีประสิทธิภาพดีกว่าเครื่องมือที่มีชื่อเสียงอย่าง LM Studio

ในงานปรับปรุงลึกอีกงานหนึ่งสำหรับเครื่องยนต์ทางการเงินโอเพนซอร์ส exchange-core K2.6 ผ่านการวิเคราะห์แผนภาพประสิทธิภาพ ในระหว่างการทำงานต่อเนื่อง 13 ชั่วโมง ได้แก้ไขโค้ดหลักมากกว่า 4000 บรรทัด ปรับเปลี่ยนโครงสร้างโทโพโลยีของเธรด และสุดท้ายเพิ่มปริมาณงานมัธยฐานของระบบขึ้น 185% และเพิ่มปริมาณงานสูงสุดขึ้น 133%
ความสามารถในการออกแบบ Front-end
K2.6 มีความสามารถในการเขียนโปรแกรมแบบมัลติโมดัลขั้นสูง สามารถสร้างโค้ดเว็บเพจที่สอดคล้องกันจากวัสดุภาพหรือวิดีโอ เพื่อทำให้ความคิดในการออกแบบเกิดขึ้นได้อย่างรวดเร็ว

Moon’s Dark Side ได้สร้างมาตรฐานการประเมินการออกแบบการพัฒนา front-end ขึ้นชื่อว่า Kimi Design Bench ซึ่งครอบคลุมมิติต่างๆ เช่น อินพุตภาพ การสร้าง Landing Page การพัฒนาแอปพลิเคชันแบบ Full-stack ในการประเมินนี้ K2.6 แสดงให้เห็นถึงข้อได้เปรียบที่ชัดเจนเมื่อเทียบกับโมเดล Gemini 3 ใน Google AI Studio

คลัสเตอร์เอเจนต์ขนาดใหญ่
ขนาดการทำงานร่วมกันของเอเจนต์ของ K2.6 ได้รับการขยายอย่างมาก สามารถประสานงานเอเจนต์ย่อยได้สูงสุด 300 ตัว เพื่อดำเนินการขั้นตอนการทำงานร่วมกันได้มากถึง 4000 ขั้นตอน ไปพร้อมกัน คลัสเตอร์เอเจนต์สามารถแยกงานที่ซับซ้อนออกเป็นส่วนๆ ได้แบบไดนามิก และจัดสรรเอเจนต์ที่มีทักษะต่างกันให้ทำงานเสริมกัน
ในการสาธิตจริงครั้งหนึ่ง เมื่อเผชิญกับงานวิเคราะห์หุ้นกึ่งตัวนำทั่วโลก 100 รายการ คลัสเตอร์เอเจนต์ได้ออกแบบและดำเนินกลยุทธ์เชิงปริมาณ 5 ชุดด้วยตนเอง และในที่สุดสร้างตารางโมเดลการวิเคราะห์ระดับมืออาชีพและชุดงานนำเสนอรายงานทั้งหมด

การทำงานร่วมกับเฟรมเวิร์กเอเจนต์
การพัฒนา K2.6 ได้เสริมการปรับให้เข้ากับเฟรมเวิร์กเอเจนต์ เช่น OpenClaw/Hermes ทำให้มีประสิทธิภาพที่มั่นคงมากขึ้นในงานที่ต้องทำงานอัตโนมัติระยะยาว การทดสอบอย่างเป็นทางการแสดงให้เห็นว่า เอเจนต์ที่ใช้พื้นฐานจาก K2.6 สามารถ ทำงานอัตโนมัติต่อเนื่องได้ 5 วัน การเรียกใช้ API ของมันมีความแม่นยำ ความเสถียร และความปลอดภัยที่เพิ่มขึ้น


ในการทดสอบมาตรฐานเอเจนต์ภายในของ Moon’s Dark Side ชื่อ Claw Bench ประสิทธิภาพโดยรวมของ K2.6 เพิ่มขึ้น 10% เมื่อเทียบกับ K2.5
การสำรวจ: การประสานงานกลุ่มเอเจนต์
Moon’s Dark Side กำลังทดสอบฟีเจอร์ใหม่ชื่อ “Claw Group” ในวงจำกัด ฟีเจอร์นี้อนุญาตให้เอเจนต์ที่ทำงานในสภาพแวดล้อมต่างกันและใช้พื้นฐานจากโมเดลต่างกัน เข้าร่วมกลุ่มการทำงานร่วมกันเดียวกัน โดยแต่ละเอเจนต์สามารถนำเครื่องมือและความจำเฉพาะตัวติดตัวไปได้ ในสถาปัตยกรรมนี้ K2.6 ทำหน้าที่เป็นผู้ประสานงานหลัก รับผิดชอบในการจัดสรรงาน การตรวจสอบความคืบหน้า และการจัดการข้อผิดพลาด

บทสรุป
การเปิดตัว Kimi K2.6 เป็นสัญลักษณ์ว่าในหลายการทดสอบมาตรฐานหลักด้านการเข้ารหัสและเอเจนต์ เป็นครั้งแรกที่โมเดลโอเพนซอร์สสามารถแซงหน้าข้ามโมเดลปิดชั้นนำได้อย่างครอบคลุม มันผลักดันความสามารถเอเจนต์อัตโนมัติขั้นสูงสู่ชุมชนโอเพนซอร์ส ซึ่งคาดว่าจะช่วยลดอุปสรรคในการประยุกต์ใช้เทคโนโลยีและเร่งนวัตกรรมในอุตสาหกรรม
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31338
