Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ “จดบันทึก”

Cursor ได้เปิดตัวโมเดลการเขียนโปรแกรมรุ่นใหม่ Composer 2 ซึ่งแสดงผลลัพธ์เหนือกว่า Claude Opus 4.6 ในการทดสอบมาตรฐานหลายรายการ ในขณะที่ราคาถูกลงอย่างมีนัยสำคัญ แกนหลักเบื้องหลังคือวิธีการฝึกการเรียนรู้แบบเสริมแรงรูปแบบใหม่ที่เรียกว่า “การสรุปด้วยตนเอง”

ประสิทธิภาพเหนือกว่า Claude ราคาถูกลงอย่างมาก

Composer 2 เป็นโมเดลการเขียนโปรแกรมล่าสุดที่เปิดตัวโดย Cursor ตามข้อมูลอย่างเป็นทางการ โมเดลนี้แสดงการปรับปรุงอย่างมีนัยสำคัญในการทดสอบมาตรฐานหลายรายการ รวมถึง Terminal-Bench 2.0 และ SWE-bench Multilingual

ตัวอย่างเช่น ในมาตรฐาน Terminal-Bench 2.0 ซึ่งวัดความสามารถของเอเจนต์ในการดำเนินการในเทอร์มินัล ประสิทธิภาพของมันอยู่ระหว่าง GPT-5.4 กับ Claude Opus 4.6

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"
ประสิทธิภาพของ Composer 2 บน Terminal-Bench 2.0

จากอัตราการพัฒนารุ่นของโมเดล การวิวัฒนาการของซีรีส์ Composer กำลังเร่งขึ้น

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"
ความก้าวหน้าในการพัฒนารุ่นของโมเดล Composer

ในด้านราคา Composer 2 รุ่นมาตรฐานมีราคาอินพุตที่ 0.5 ดอลลาร์สหรัฐต่อล้านโทเค็น และราคาเอาต์พุตที่ 2.5 ดอลลาร์สหรัฐต่อล้านโทเค็น เมื่อเทียบกับ Claude Opus 4.6 แล้ว มีข้อได้เปรียบด้านราคาอย่างชัดเจน

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"
การเปรียบเทียบราคาระหว่าง Composer 2 กับ Claude Opus 4.6

นอกจากนี้ Cursor ยังได้เปิดตัวตัวแปรที่เร็วขึ้นคือ Composer 2 Fast ซึ่งมีราคาอินพุตที่ 1.5 ดอลลาร์สหรัฐต่อล้านโทเค็น และราคาเอาต์พุตที่ 7.5 ดอลลาร์สหรัฐต่อล้านโทเค็น รุ่นนี้รักษาระดับความฉลาดเท่าเดิมในขณะที่ความเร็วในการตอบสนองเร็วขึ้น

Cursor ระบุว่ากุญแจสำคัญในการสร้างสมดุลระหว่างประสิทธิภาพและต้นทุนคือการแนะนำวิธีการเรียนรู้แบบเสริมแรงรูปแบบใหม่

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"

วิธีการเรียนรู้แบบเสริมแรง “การสรุปด้วยตนเอง”

แกนกลางของวิธีนี้คือการสอนโมเดลให้รู้จักหยุดชั่วคราวและสร้าง “สรุประยะ” (หรือ “จดบันทึก”) อย่างแข็งขันในระหว่างการดำเนินงานงานที่ยาว ซึ่งทำให้สามารถดำเนินงานที่ซับซ้อนเกินกว่าความจุของหน้าต่างบริบทต่อไปได้ผ่านวิธีการบีบอัดข้อมูล

ในปัจจุบัน วิธีการหลักในการจัดการงานที่มีบริบทยาวส่วนใหญ่เกี่ยวข้องกับ “การบีบอัด” เช่น:
* ทำสรุปข้อความแล้วดำเนินการต่อ
* เลื่อนหน้าต่างบริบท ทิ้งข้อมูลที่เก่ากว่า
* ทำการบีบอัดเวกเตอร์ในพื้นที่แฝง

แต่วิธีการเหล่านี้อาจทำให้สูญเสียข้อมูลสำคัญ ส่งผลให้งานยิ่งยาว ประสิทธิภาพของโมเดลยิ่งแย่ลง

วิธีแก้ปัญหาของ Cursor คือการทำให้กลไก “การสรุปด้วยตนเอง” เป็นส่วนหนึ่งของกระบวนการฝึกโมเดล รายละเอียดกระบวนการมีดังนี้:
1. โมเดล Composer สร้างผลลัพธ์อย่างต่อเนื่อง จนถึงจุดทริกเกอร์ความยาวโทเค็นที่กำหนดไว้ล่วงหน้า
2. แทรกคำถามสังเคราะห์ที่ขอให้โมเดลสรุปบริบทปัจจุบัน
3. โมเดลวางแผนสรุปที่ดีที่สุดในพื้นที่ร่าง และสร้างบริบทที่ถูกบีบอัด
4. โมเดลใช้บริบทที่ถูกบีบอัด (ซึ่งรวมถึงสรุปและข้อมูลสถานะของงาน) กลับไปที่ขั้นตอนที่ 1 เพื่อดำเนินงานต่อ

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"
แผนภาพแสดงขั้นตอนการเรียนรู้แบบเสริมแรง “การสรุปด้วยตนเอง”

ประเด็นสำคัญคือ ความสามารถในการสรุปนี้ได้มาจากการฝึกการเรียนรู้แบบเสริมแรง ไม่ใช่เพียงเทคนิคการอนุมายง่ายๆ ในการฝึก คุณภาพของการสรุปจะส่งผลโดยตรงต่อสัญญาณรางวัล: การสรุปที่ดีช่วยให้งานต่อๆ ไปสำเร็จและได้รับรางวัลสูง ในขณะที่การสรุปที่สูญเสียข้อมูลสำคัญจนทำให้งานล้มเหลวจะถูกลงโทษ ด้วยวิธีนี้ โมเดลเรียนรู้ที่จะคัดกรองและเก็บรักษาข้อมูลสำคัญ

เมื่อเทียบกับวิธีการสรุปแบบดั้งเดิม วิธีนี้มีประสิทธิภาพสูงกว่า ในการทดสอบชุดงานวิศวกรรมซอฟต์แวร์ที่มีความยากสูง วิธีการแบบดั้งเดิมต้องการพรอมต์หลายพันโทเค็นเพื่อทำสรุป และหลังจากบีบอัดแล้วยังต้องการโดยเฉลี่ยมากกว่า 5,000+ โทเค็น ในขณะที่ Composer ต้องการเพียงพรอมต์ง่ายๆ ว่า “Please summarize the conversation” ผลลัพธ์ที่บีบอัดมีเพียงประมาณ 1,000 โทเค็นโดยเฉลี่ย ใช้ปริมาณประมาณหนึ่งในห้าของวิธีการแบบดั้งเดิม และข้อผิดพลาดที่เกิดจากการบีบอัดลดลงประมาณ 50%

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"
การเปรียบเทียบผลการบีบอัดกับวิธีการสรุปแบบดั้งเดิม

วิธีนี้แก้ปัญหาความท้าทายของงานที่มีห่วงโซ่ยาวได้อย่างมีประสิทธิภาพ ในการทดสอบปัญหาคลาสสิก – การพอร์ตเกม Doom ให้ทำงานบนสถาปัตยกรรม MIPS – โมเดลหลายตัวล้มเหลวกลางคันเนื่องจากความซับซ้อนของงาน Composer ประสบความสำเร็จหลังจากปฏิสัมพันธ์ 170 รอบ ในกระบวนการนี้ บริบทที่มีมากกว่า 100,000 โทเค็นถูกบีบอัดเหลือประมาณ 1,000 โทเค็น

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"
ตัวอย่างการบีบอัดบริบทยาวของ Composer ในงานพอร์ต Doom

การทดสอบภายในแสดงให้เห็นว่า ด้วยการผนวกรวมการบีบอัดเข้ากับวงจรการฝึก Composer ได้เรียนรู้กลไกที่ชัดเจนในการส่งผ่านข้อมูลสำคัญอย่างมีประสิทธิภาพ ส่งผลให้มีประสิทธิภาพที่ดีขึ้นในงานที่มีความยากสูง

จังหวะการวิจัยของ Cursor รวดเร็วมาก มีนักวิจัยเริ่มเปิดเผยข้อมูลเกี่ยวกับ Composer 3 แล้ว

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"

ซีอีโอของ Cursor ระบุว่าบริษัทมีตำแหน่งเป็นทั้งผู้พัฒนาซอฟต์แวร์แอปพลิเคชันและผู้ให้บริการโมเดล

Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ "จดบันทึก"

ลิงก์อ้างอิง:
[1]https://x.com/mntruell/status/2034729462211002505
[2]https://x.com/RoboIntellect/status/2034693646822580431?s=20
[3]https://x.com/cursor_ai/status/2033967614309835069?s=20

คลังความรู้ผลิตภัณฑ์ AI เป็นคลังความรู้บน Feishu ที่เปิดตัวโดย Quantum Bit Think Tank โดยอิงจากการติดตามคลังผลิตภัณฑ์ระยะยาวและข้อมูลพฤติกรรมผู้ใช้ มีวัตถุประสงค์เพื่อเป็นศูนย์กลางข้อมูลหลักและแพลตฟอร์มสนับสนุนการตัดสินใจสำหรับผู้ปฏิบัติงาน นักลงทุน และนักวิจัยในอุตสาหกรรม AI


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/26559

Like (0)
Previous 4 hours ago
Next 4 days ago

相关推荐