ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

9 hours ago • ข่าวสารอุตสาหกรรม AI • 12 views

รายงานโดย Machine Heart

“ด้วยต้นทุนเพียงหนึ่งในสิบ ประสิทธิภาพเกือบเทียบเท่าระดับโมเดล Claude Opus 4.7”

นี่คือจุดเด่นของโมเดลที่แข็งแกร่งที่สุดที่ Cursor เปิดตัวในช่วงเช้าวันนี้ นั่นคือ Composer 2.5

ทางการประกาศว่า Composer 2.5 ฉลาดขึ้น เชี่ยวชาญในการจัดการงานที่ต้องใช้เวลานานและต่อเนื่อง และเชื่อถือได้มากขึ้นในการปฏิบัติตามคำสั่งที่ซับซ้อน

ภายในสัปดาห์หน้า Cursor จะเพิ่มเครดิตการใช้งานที่แถมมากับโมเดลนี้เป็นสองเท่า

เมื่อเทียบกับ Composer 2 แล้ว Composer 2.5 มีการปรับปรุงที่สำคัญทั้งในด้านระดับความฉลาดและพฤติกรรมการทำงาน

ด้วยการขยายขนาดการฝึก สร้างสภาพแวดล้อมการเรียนรู้แบบเสริมกำลังที่ซับซ้อนยิ่งขึ้น และแนะนำวิธีการเรียนรู้ใหม่ๆ Cursor ได้ปรับปรุง Composer อย่างครอบคลุม

นอกจากการฝึก Composer 2.5 ในงานที่ยากขึ้นแล้ว Cursor ยังปรับปรุงด้านพฤติกรรมของโมเดล เช่น รูปแบบการสื่อสาร การปรับเทียบความพยายาม เป็นต้น มิติเหล่านี้ยากต่อการวัดด้วยเกณฑ์มาตรฐานที่มีอยู่ แต่มีความสำคัญอย่างยิ่งต่อประสบการณ์การใช้งานจริง

จะเห็นได้ว่า Composer 2.5 มีประสิทธิภาพด้านต้นทุนสูงที่สุดถึง 10 เท่าในกลุ่มโมเดลที่มีความสามารถเท่าเทียมกัน

ที่น่าสนใจคือ Composer 2.5 สร้างขึ้นจาก checkpoint โอเพนซอร์สเดียวกันกับ Composer 2 นั่นคือ Kimi K2.5 ของ Moonshot AI

Cursor ยังประกาศความร่วมมือกับ SpaceXAI: ทั้งสองฝ่ายจะเริ่มฝึกโมเดลขนาดใหญ่ขึ้นจากศูนย์ โดยลงทุนด้านพลังประมวลผลรวมเป็น 10 เท่าของเดิม ด้วยพลังประมวลผลเทียบเท่า HDD หนึ่งล้านตัวของ Colossus 2 รวมถึงข้อมูลและเทคนิคการฝึกที่ทั้งสองฝ่ายสะสมไว้ คาดว่านี่จะเป็นการก้าวกระโดดครั้งสำคัญในความสามารถของโมเดล

Elon Musk ทวีตเรียกร้องให้ทุกคนใช้ Composer 2.5 และเปิดเผยว่าการฝึกโมเดลนี้ส่วนหนึ่งดำเนินการบน Colossus 2

ผู้ก่อตั้ง Cursor กล่าวว่า: “เราทำงานด้านการเรียนรู้แบบเสริมกำลังได้ดีเยี่ยมแล้ว Composer 2.5 ประสบความสำเร็จในการท้าทายที่เหนือระดับ โดยประสิทธิภาพของมันสูงเกินกว่าที่พารามิเตอร์ควรจะเป็นมาก สำหรับเวอร์ชันถัดไป เราตื่นเต้นอย่างยิ่ง เราจะร่วมกับ SpaceXAI ขยายขนาดโมเดลและการลงทุนด้านพลังประมวลผลอย่างมาก”

ระบบการฝึกของ Composer 2.5

ระบบการฝึกของ Composer 2.5 นำเสนอการปรับปรุงใหม่หลายประการ ซึ่งมุ่งเป้าไปที่ทั้งความฉลาดของโมเดลและการใช้งาน

ประการแรก การเรียนรู้แบบเสริมกำลังที่แม่นยำตามข้อความตอบกลับ

เมื่อกระบวนการอนุมานครั้งเดียวอาจยาวนานถึงหลายแสน token การจัดสรรเครดิตในการเรียนรู้แบบเสริมกำลังกลายเป็นความท้าทายที่เพิ่มขึ้น เมื่อรางวัลคำนวณจากกระบวนการอนุมานทั้งหมด โมเดลจะแยกแยะได้ยากว่าการตัดสินใจใดช่วยหรือทำร้ายผลลัพธ์สุดท้าย ข้อจำกัดนี้ชัดเจนเป็นพิเศษเมื่อเราต้องการระงับพฤติกรรมเฉพาะจุด (เช่น การเรียกใช้เครื่องมือที่ผิดพลาด คำอธิบายที่สับสน หรือการละเมิดรูปแบบ) รางวัลสุดท้ายอาจบอกได้ว่ามีปัญหา แต่ไม่ชัดเจนว่าปัญหาอยู่ที่ไหน มันเป็นเพียงสัญญาณที่มีสัญญาณรบกวน

เพื่อแก้ปัญหานี้ Cursor ใช้ข้อความตอบกลับที่แม่นยำในการฝึก Composer 2.5 แนวคิดคือ: ให้ข้อเสนอแนะโดยตรง ณ จุดเฉพาะในเส้นทางการอนุมานของโมเดลที่สามารถทำงานได้ดีกว่า สำหรับข้อความโมเดลเป้าหมาย Cursor สร้างคำใบ้สั้นๆ ที่อธิบายทิศทางการปรับปรุงที่ต้องการ แทรกลงในบริบทท้องถิ่น และใช้การกระจายความน่าจะเป็นของโมเดลที่ได้เป็น “ครู” ในขณะเดียวกัน ใช้นโยบายในบริบทดั้งเดิมเป็น “นักเรียน” เพิ่มการสูญเสีย KL แบบกลั่นนโยบายเดียวกัน เพื่อดึงความน่าจะเป็นของ token ของนักเรียนเข้าใกล้ความน่าจะเป็นของครู วิธีนี้ช่วยให้ได้รับสัญญาณการฝึกเฉพาะจุดสำหรับพฤติกรรมเป้าหมาย ในขณะที่ยังคงรักษาเป้าหมายการเรียนรู้แบบเสริมกำลังโดยรวมตามเส้นทางที่สมบูรณ์

ตัวอย่างกระบวนการข้อความตอบกลับ: ลองนึกภาพกระบวนการอนุมานที่ยาวนาน ซึ่งมีการเรียกใช้เครื่องมือผิดพลาดหนึ่งครั้ง: โมเดลพยายามเรียกใช้เครื่องมือที่ไม่มีอยู่ ในระหว่างกระบวนการ โมเดลจะได้รับข้อความแสดงข้อผิดพลาด “ไม่พบเครื่องมือ” และดำเนินการเรียกใช้เครื่องมืออื่นๆ ที่มีประสิทธิภาพต่อไป การมีข้อผิดพลาดหนึ่งครั้งในการเรียกใช้เครื่องมือหลายร้อยครั้ง มีผลกระทบเพียงเล็กน้อยต่อรางวัลสุดท้าย

ด้วยข้อความตอบกลับ สามารถระบุข้อผิดพลาดเฉพาะนี้ได้อย่างแม่นยำ: แทรกคำใบ้ในบริบทของรอบที่เกิดข้อผิดพลาด เช่น “เตือน: เครื่องมือที่มีคือ…” พร้อมรายการเครื่องมือที่มี คำใบ้นี้เปลี่ยนการกระจายความน่าจะเป็นของโมเดลครู ลดความน่าจะเป็นในการเรียกใช้เครื่องมือผิด และเพิ่มความน่าจะเป็นของทางเลือกที่มีประสิทธิภาพ จากนั้น อัปเดตน้ำหนักของนักเรียนไปสู่การกระจายความน่าจะเป็นใหม่เฉพาะในรอบนั้น

ในระหว่างการฝึก Composer 2.5 Cursor ใช้วิธีนี้กับพฤติกรรมโมเดลหลายอย่าง ตั้งแต่รูปแบบโค้ดไปจนถึงวิธีการสื่อสารของโมเดล

ประการที่สอง ข้อมูลสังเคราะห์

ในระหว่างการฝึกแบบเสริมกำลัง ความสามารถในการเขียนโปรแกรมของ Composer จะเพิ่มขึ้นอย่างมาก จนกระทั่งสามารถทำงานฝึกส่วนใหญ่ได้อย่างถูกต้อง เพื่อเพิ่มระดับความฉลาดอย่างต่อเนื่อง Cursor จะคัดกรองและสร้างงานที่ยากขึ้นแบบไดนามิกตลอดกระบวนการฝึก จำนวนงานสังเคราะห์ที่ Composer 2.5 ใช้มากกว่า Composer 2 ถึง 25 เท่า

Cursor ใช้หลายวิธีในการสร้างงานสังเคราะห์จากฐานโค้ดจริง ตัวอย่างเช่น วิธีหนึ่งคือ “การลบฟังก์ชัน”: ให้เอเจนต์มีฐานโค้ดที่มีชุดทดสอบจำนวนมาก และขอให้ลบโค้ดและไฟล์ในลักษณะที่ฐานโค้ดยังคงทำงานได้หลังจากลบฟังก์ชันที่ทดสอบได้บางส่วน งานสังเคราะห์คือการนำฟังก์ชันที่ถูกลบไปใช้ใหม่ ในขณะที่ชุดทดสอบใช้เป็นรางวัลที่ตรวจสอบได้

ผลกระทบข้างเคียงจากการสร้างงานสังเคราะห์ขนาดใหญ่คือ อาจนำไปสู่พฤติกรรมการแฮกรางวัลที่ไม่คาดคิด

เมื่อความสามารถของโมเดลแข็งแกร่งขึ้น Composer 2.5 จะพบวิธีแก้ปัญหาที่ละเอียดอ่อนมากขึ้นในการทำงานให้สำเร็จ ตัวอย่างหนึ่งคือ โมเดลพบแคชการตรวจสอบประเภท Python ที่หลงเหลืออยู่ และถอดรหัสรูปแบบของมันเพื่อค้นหาลายเซ็นฟังก์ชันที่ถูกลบไป อีกตัวอย่างหนึ่ง มันค้นหาและดีคอมไพล์ Java bytecode เพื่อสร้าง API ของบุคคลที่สามขึ้นมาใหม่ Cursor ค้นพบและวินิจฉัยปัญหาเหล่านี้ผ่านเครื่องมือตรวจสอบเอเจนต์ แต่ก็แสดงให้เห็นว่าการเรียนรู้แบบเสริมกำลังขนาดใหญ่ต้องใช้ความระมัดระวังมากขึ้น

ประการที่สาม Sharded Muon และ Dual-Grid HSDP

ในการฝึกก่อนการฝึกต่อเนื่อง Cursor ใช้ตัวปรับแต่ง Muon แบบกระจายและตั้งฉาก หลังจากสร้างการอัปเดตโมเมนตัม ให้รันการวนซ้ำ Newton-Schulz ที่ความละเอียดตามธรรมชาติของโมเดล: สำหรับการฉายภาพความสนใจ ให้ประมวลผลตามหัวความสนใจแต่ละหัว สำหรับน้ำหนัก MoE ที่ซ้อนกัน ให้ประมวลผลตามผู้เชี่ยวชาญแต่ละคน

ค่าใช้จ่ายหลักมาจากการตั้งฉากของน้ำหนักผู้เชี่ยวชาญ สำหรับพารามิเตอร์แบบแบ่งส่วน ให้รวมเทนเซอร์ที่มีรูปร่างเดียวกันเป็นชุด รวบรวมชิ้นส่วนเป็นเมทริกซ์ที่สมบูรณ์ผ่าน all-to-all รัน Newton-Schulz จากนั้นส่งผลลัพธ์กลับไปยังโครงร่างชิ้นส่วนเดิมผ่าน all-to-all การส่งเหล่านี้เป็นแบบอะซิงโครนัส: เมื่องานหนึ่งรอการสื่อสาร รันไทม์ของตัวปรับแต่งจะดำเนินการงาน Muon อื่นๆ ต่อไป ทำให้การส่งผ่านเครือข่ายทับซ้อนกับการคำนวณ ซึ่งเทียบเท่ากับ Muon เมทริกซ์เต็ม แต่ทำให้กลุ่มชิ้นส่วนทำงานอย่างต่อเนื่อง บนโมเดลพารามิเตอร์ 1T การดำเนินการตัวปรับแต่งครั้งเดียวใช้เวลาเพียง 0.2 วินาที

สิ่งนี้เกี่ยวข้องอย่างใกล้ชิดกับวิธีที่ Cursor ใช้ HSDP สำหรับโมเดล MoE HSDP ประกอบด้วยสำเนา FSDP หลายชุด และดำเนินการ all-reduce ของเกรเดียนต์ระหว่างชิ้นส่วนที่สอดคล้องกัน Cursor ใช้โครงร่าง HSDP แยกกันสำหรับน้ำหนักที่ไม่ใช่ผู้เชี่ยวชาญและน้ำหนักผู้เชี่ยวชาญ: น้ำหนักที่ไม่ใช่ผู้เชี่ยวชาญค่อนข้างเล็ก กลุ่ม FSDP ของพวกมันสามารถรักษาช่วงที่แคบได้ โดยปกติภายในโหนดหรือแร็คเดียว ในขณะที่น้ำหนักผู้เชี่ยวชาญมีพารามิเตอร์ส่วนใหญ่และการคำนวณ Muon ส่วนใหญ่ ดังนั้นจึงใช้กริดชิ้นส่วนผู้เชี่ยวชาญที่กว้างขึ้น

การรักษาโครงร่างเหล่านี้ให้เป็นอิสระยังช่วยให้มิติคู่ขนานที่เป็นอิสระทับซ้อนกันได้: เช่น CP=2 และ EP=8 สามารถทำงานบน GPU 8 ตัว โดยไม่ต้องใช้ 16 ตัวในกริดที่ใช้ร่วมกันเดียว วิธีนี้หลีกเลี่ยงการสื่อสารในวงกว้างสำหรับสถานะที่ไม่ใช่ผู้เชี่ยวชาญขนาดเล็ก ในขณะที่กระจายงานคำนวณของตัวปรับแต่งผู้เชี่ยวชาญไปยัง GPU มากขึ้น

ราคาของ Composer 2.5

ราคาของ Composer 2.5 อยู่ที่ 0.50 ดอลลาร์สหรัฐต่อ token อินพุตหนึ่งล้าน และ 2.50 ดอลลาร์สหรัฐต่อ token เอาต์พุตหนึ่งล้าน

นอกจากนี้ยังมีรูปแบบที่เร็วกว่าและมีความฉลาดเท่ากัน ราคาอยู่ที่ 3.00 ดอลลาร์สหรัฐต่อ token อินพุตหนึ่งล้าน และ 15.00 ดอลลาร์สหรัฐต่อ token เอาต์พุตหนึ่งล้าน ซึ่งถูกกว่าเวอร์ชันเร็วของโมเดลชั้นนำอื่นๆ

ที่อยู่บล็อก: https://cursor.com/blog/composer-2-5