ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

รายงานโดย Machine Heart

“ด้วยต้นทุนเพียงหนึ่งในสิบ ประสิทธิภาพเกือบเทียบเท่าระดับโมเดล Claude Opus 4.7”

นี่คือจุดเด่นของโมเดลที่แข็งแกร่งที่สุดที่ Cursor เปิดตัวในช่วงเช้าวันนี้ นั่นคือ Composer 2.5

ทางการประกาศว่า Composer 2.5 ฉลาดขึ้น เชี่ยวชาญในการจัดการงานที่ต้องใช้เวลานานและต่อเนื่อง และเชื่อถือได้มากขึ้นในการปฏิบัติตามคำสั่งที่ซับซ้อน

ภายในสัปดาห์หน้า Cursor จะเพิ่มเครดิตการใช้งานที่แถมมากับโมเดลนี้เป็นสองเท่า

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

เมื่อเทียบกับ Composer 2 แล้ว Composer 2.5 มีการปรับปรุงที่สำคัญทั้งในด้านระดับความฉลาดและพฤติกรรมการทำงาน

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

ด้วยการขยายขนาดการฝึก สร้างสภาพแวดล้อมการเรียนรู้แบบเสริมกำลังที่ซับซ้อนยิ่งขึ้น และแนะนำวิธีการเรียนรู้ใหม่ๆ Cursor ได้ปรับปรุง Composer อย่างครอบคลุม

นอกจากการฝึก Composer 2.5 ในงานที่ยากขึ้นแล้ว Cursor ยังปรับปรุงด้านพฤติกรรมของโมเดล เช่น รูปแบบการสื่อสาร การปรับเทียบความพยายาม เป็นต้น มิติเหล่านี้ยากต่อการวัดด้วยเกณฑ์มาตรฐานที่มีอยู่ แต่มีความสำคัญอย่างยิ่งต่อประสบการณ์การใช้งานจริง

จะเห็นได้ว่า Composer 2.5 มีประสิทธิภาพด้านต้นทุนสูงที่สุดถึง 10 เท่าในกลุ่มโมเดลที่มีความสามารถเท่าเทียมกัน

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

ที่น่าสนใจคือ Composer 2.5 สร้างขึ้นจาก checkpoint โอเพนซอร์สเดียวกันกับ Composer 2 นั่นคือ Kimi K2.5 ของ Moonshot AI

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

Cursor ยังประกาศความร่วมมือกับ SpaceXAI: ทั้งสองฝ่ายจะเริ่มฝึกโมเดลขนาดใหญ่ขึ้นจากศูนย์ โดยลงทุนด้านพลังประมวลผลรวมเป็น 10 เท่าของเดิม ด้วยพลังประมวลผลเทียบเท่า HDD หนึ่งล้านตัวของ Colossus 2 รวมถึงข้อมูลและเทคนิคการฝึกที่ทั้งสองฝ่ายสะสมไว้ คาดว่านี่จะเป็นการก้าวกระโดดครั้งสำคัญในความสามารถของโมเดล

Elon Musk ทวีตเรียกร้องให้ทุกคนใช้ Composer 2.5 และเปิดเผยว่าการฝึกโมเดลนี้ส่วนหนึ่งดำเนินการบน Colossus 2

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

ผู้ก่อตั้ง Cursor กล่าวว่า: “เราทำงานด้านการเรียนรู้แบบเสริมกำลังได้ดีเยี่ยมแล้ว Composer 2.5 ประสบความสำเร็จในการท้าทายที่เหนือระดับ โดยประสิทธิภาพของมันสูงเกินกว่าที่พารามิเตอร์ควรจะเป็นมาก สำหรับเวอร์ชันถัดไป เราตื่นเต้นอย่างยิ่ง เราจะร่วมกับ SpaceXAI ขยายขนาดโมเดลและการลงทุนด้านพลังประมวลผลอย่างมาก”

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

ระบบการฝึกของ Composer 2.5

ระบบการฝึกของ Composer 2.5 นำเสนอการปรับปรุงใหม่หลายประการ ซึ่งมุ่งเป้าไปที่ทั้งความฉลาดของโมเดลและการใช้งาน

ประการแรก การเรียนรู้แบบเสริมกำลังที่แม่นยำตามข้อความตอบกลับ

เมื่อกระบวนการอนุมานครั้งเดียวอาจยาวนานถึงหลายแสน token การจัดสรรเครดิตในการเรียนรู้แบบเสริมกำลังกลายเป็นความท้าทายที่เพิ่มขึ้น เมื่อรางวัลคำนวณจากกระบวนการอนุมานทั้งหมด โมเดลจะแยกแยะได้ยากว่าการตัดสินใจใดช่วยหรือทำร้ายผลลัพธ์สุดท้าย ข้อจำกัดนี้ชัดเจนเป็นพิเศษเมื่อเราต้องการระงับพฤติกรรมเฉพาะจุด (เช่น การเรียกใช้เครื่องมือที่ผิดพลาด คำอธิบายที่สับสน หรือการละเมิดรูปแบบ) รางวัลสุดท้ายอาจบอกได้ว่ามีปัญหา แต่ไม่ชัดเจนว่าปัญหาอยู่ที่ไหน มันเป็นเพียงสัญญาณที่มีสัญญาณรบกวน

เพื่อแก้ปัญหานี้ Cursor ใช้ข้อความตอบกลับที่แม่นยำในการฝึก Composer 2.5 แนวคิดคือ: ให้ข้อเสนอแนะโดยตรง ณ จุดเฉพาะในเส้นทางการอนุมานของโมเดลที่สามารถทำงานได้ดีกว่า สำหรับข้อความโมเดลเป้าหมาย Cursor สร้างคำใบ้สั้นๆ ที่อธิบายทิศทางการปรับปรุงที่ต้องการ แทรกลงในบริบทท้องถิ่น และใช้การกระจายความน่าจะเป็นของโมเดลที่ได้เป็น “ครู” ในขณะเดียวกัน ใช้นโยบายในบริบทดั้งเดิมเป็น “นักเรียน” เพิ่มการสูญเสีย KL แบบกลั่นนโยบายเดียวกัน เพื่อดึงความน่าจะเป็นของ token ของนักเรียนเข้าใกล้ความน่าจะเป็นของครู วิธีนี้ช่วยให้ได้รับสัญญาณการฝึกเฉพาะจุดสำหรับพฤติกรรมเป้าหมาย ในขณะที่ยังคงรักษาเป้าหมายการเรียนรู้แบบเสริมกำลังโดยรวมตามเส้นทางที่สมบูรณ์

ตัวอย่างกระบวนการข้อความตอบกลับ: ลองนึกภาพกระบวนการอนุมานที่ยาวนาน ซึ่งมีการเรียกใช้เครื่องมือผิดพลาดหนึ่งครั้ง: โมเดลพยายามเรียกใช้เครื่องมือที่ไม่มีอยู่ ในระหว่างกระบวนการ โมเดลจะได้รับข้อความแสดงข้อผิดพลาด “ไม่พบเครื่องมือ” และดำเนินการเรียกใช้เครื่องมืออื่นๆ ที่มีประสิทธิภาพต่อไป การมีข้อผิดพลาดหนึ่งครั้งในการเรียกใช้เครื่องมือหลายร้อยครั้ง มีผลกระทบเพียงเล็กน้อยต่อรางวัลสุดท้าย

ด้วยข้อความตอบกลับ สามารถระบุข้อผิดพลาดเฉพาะนี้ได้อย่างแม่นยำ: แทรกคำใบ้ในบริบทของรอบที่เกิดข้อผิดพลาด เช่น “เตือน: เครื่องมือที่มีคือ…” พร้อมรายการเครื่องมือที่มี คำใบ้นี้เปลี่ยนการกระจายความน่าจะเป็นของโมเดลครู ลดความน่าจะเป็นในการเรียกใช้เครื่องมือผิด และเพิ่มความน่าจะเป็นของทางเลือกที่มีประสิทธิภาพ จากนั้น อัปเดตน้ำหนักของนักเรียนไปสู่การกระจายความน่าจะเป็นใหม่เฉพาะในรอบนั้น

ในระหว่างการฝึก Composer 2.5 Cursor ใช้วิธีนี้กับพฤติกรรมโมเดลหลายอย่าง ตั้งแต่รูปแบบโค้ดไปจนถึงวิธีการสื่อสารของโมเดล

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

ประการที่สอง ข้อมูลสังเคราะห์

ในระหว่างการฝึกแบบเสริมกำลัง ความสามารถในการเขียนโปรแกรมของ Composer จะเพิ่มขึ้นอย่างมาก จนกระทั่งสามารถทำงานฝึกส่วนใหญ่ได้อย่างถูกต้อง เพื่อเพิ่มระดับความฉลาดอย่างต่อเนื่อง Cursor จะคัดกรองและสร้างงานที่ยากขึ้นแบบไดนามิกตลอดกระบวนการฝึก จำนวนงานสังเคราะห์ที่ Composer 2.5 ใช้มากกว่า Composer 2 ถึง 25 เท่า

Cursor ใช้หลายวิธีในการสร้างงานสังเคราะห์จากฐานโค้ดจริง ตัวอย่างเช่น วิธีหนึ่งคือ “การลบฟังก์ชัน”: ให้เอเจนต์มีฐานโค้ดที่มีชุดทดสอบจำนวนมาก และขอให้ลบโค้ดและไฟล์ในลักษณะที่ฐานโค้ดยังคงทำงานได้หลังจากลบฟังก์ชันที่ทดสอบได้บางส่วน งานสังเคราะห์คือการนำฟังก์ชันที่ถูกลบไปใช้ใหม่ ในขณะที่ชุดทดสอบใช้เป็นรางวัลที่ตรวจสอบได้

ผลกระทบข้างเคียงจากการสร้างงานสังเคราะห์ขนาดใหญ่คือ อาจนำไปสู่พฤติกรรมการแฮกรางวัลที่ไม่คาดคิด

เมื่อความสามารถของโมเดลแข็งแกร่งขึ้น Composer 2.5 จะพบวิธีแก้ปัญหาที่ละเอียดอ่อนมากขึ้นในการทำงานให้สำเร็จ ตัวอย่างหนึ่งคือ โมเดลพบแคชการตรวจสอบประเภท Python ที่หลงเหลืออยู่ และถอดรหัสรูปแบบของมันเพื่อค้นหาลายเซ็นฟังก์ชันที่ถูกลบไป อีกตัวอย่างหนึ่ง มันค้นหาและดีคอมไพล์ Java bytecode เพื่อสร้าง API ของบุคคลที่สามขึ้นมาใหม่ Cursor ค้นพบและวินิจฉัยปัญหาเหล่านี้ผ่านเครื่องมือตรวจสอบเอเจนต์ แต่ก็แสดงให้เห็นว่าการเรียนรู้แบบเสริมกำลังขนาดใหญ่ต้องใช้ความระมัดระวังมากขึ้น

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5

ประการที่สาม Sharded Muon และ Dual-Grid HSDP

ในการฝึกก่อนการฝึกต่อเนื่อง Cursor ใช้ตัวปรับแต่ง Muon แบบกระจายและตั้งฉาก หลังจากสร้างการอัปเดตโมเมนตัม ให้รันการวนซ้ำ Newton-Schulz ที่ความละเอียดตามธรรมชาติของโมเดล: สำหรับการฉายภาพความสนใจ ให้ประมวลผลตามหัวความสนใจแต่ละหัว สำหรับน้ำหนัก MoE ที่ซ้อนกัน ให้ประมวลผลตามผู้เชี่ยวชาญแต่ละคน

ค่าใช้จ่ายหลักมาจากการตั้งฉากของน้ำหนักผู้เชี่ยวชาญ สำหรับพารามิเตอร์แบบแบ่งส่วน ให้รวมเทนเซอร์ที่มีรูปร่างเดียวกันเป็นชุด รวบรวมชิ้นส่วนเป็นเมทริกซ์ที่สมบูรณ์ผ่าน all-to-all รัน Newton-Schulz จากนั้นส่งผลลัพธ์กลับไปยังโครงร่างชิ้นส่วนเดิมผ่าน all-to-all การส่งเหล่านี้เป็นแบบอะซิงโครนัส: เมื่องานหนึ่งรอการสื่อสาร รันไทม์ของตัวปรับแต่งจะดำเนินการงาน Muon อื่นๆ ต่อไป ทำให้การส่งผ่านเครือข่ายทับซ้อนกับการคำนวณ ซึ่งเทียบเท่ากับ Muon เมทริกซ์เต็ม แต่ทำให้กลุ่มชิ้นส่วนทำงานอย่างต่อเนื่อง บนโมเดลพารามิเตอร์ 1T การดำเนินการตัวปรับแต่งครั้งเดียวใช้เวลาเพียง 0.2 วินาที

สิ่งนี้เกี่ยวข้องอย่างใกล้ชิดกับวิธีที่ Cursor ใช้ HSDP สำหรับโมเดล MoE HSDP ประกอบด้วยสำเนา FSDP หลายชุด และดำเนินการ all-reduce ของเกรเดียนต์ระหว่างชิ้นส่วนที่สอดคล้องกัน Cursor ใช้โครงร่าง HSDP แยกกันสำหรับน้ำหนักที่ไม่ใช่ผู้เชี่ยวชาญและน้ำหนักผู้เชี่ยวชาญ: น้ำหนักที่ไม่ใช่ผู้เชี่ยวชาญค่อนข้างเล็ก กลุ่ม FSDP ของพวกมันสามารถรักษาช่วงที่แคบได้ โดยปกติภายในโหนดหรือแร็คเดียว ในขณะที่น้ำหนักผู้เชี่ยวชาญมีพารามิเตอร์ส่วนใหญ่และการคำนวณ Muon ส่วนใหญ่ ดังนั้นจึงใช้กริดชิ้นส่วนผู้เชี่ยวชาญที่กว้างขึ้น

การรักษาโครงร่างเหล่านี้ให้เป็นอิสระยังช่วยให้มิติคู่ขนานที่เป็นอิสระทับซ้อนกันได้: เช่น CP=2 และ EP=8 สามารถทำงานบน GPU 8 ตัว โดยไม่ต้องใช้ 16 ตัวในกริดที่ใช้ร่วมกันเดียว วิธีนี้หลีกเลี่ยงการสื่อสารในวงกว้างสำหรับสถานะที่ไม่ใช่ผู้เชี่ยวชาญขนาดเล็ก ในขณะที่กระจายงานคำนวณของตัวปรับแต่งผู้เชี่ยวชาญไปยัง GPU มากขึ้น

ราคาของ Composer 2.5

ราคาของ Composer 2.5 อยู่ที่ 0.50 ดอลลาร์สหรัฐต่อ token อินพุตหนึ่งล้าน และ 2.50 ดอลลาร์สหรัฐต่อ token เอาต์พุตหนึ่งล้าน

นอกจากนี้ยังมีรูปแบบที่เร็วกว่าและมีความฉลาดเท่ากัน ราคาอยู่ที่ 3.00 ดอลลาร์สหรัฐต่อ token อินพุตหนึ่งล้าน และ 15.00 ดอลลาร์สหรัฐต่อ token เอาต์พุตหนึ่งล้าน ซึ่งถูกกว่าเวอร์ชันเร็วของโมเดลชั้นนำอื่นๆ

ที่อยู่บล็อก: https://cursor.com/blog/composer-2-5

ต้นทุนเพียง 1/10 ประสิทธิภาพใกล้เคียงโมเดลระดับท็อป! Cursor เปิดตัวโมเดลที่แข็งแกร่งที่สุด Composer 2.5


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/35349

Like (0)
Previous 9 hours ago
Next 9 hours ago

相关推荐