Cursor近日发布了其新一代编程模型Composer 2。该模型在多项基准测试中表现超越Claude Opus 4.6,同时定价显著降低。其背后核心是一种名为“自我总结”的新型强化学习训练方法。
性能超越Claude,价格大幅降低
Composer 2是Cursor推出的最新编程模型。根据官方信息,该模型在包括Terminal-Bench 2.0和SWE-bench Multilingual在内的多项基准测试上均取得了显著提升。
例如,在衡量智能体终端操作能力的Terminal-Bench 2.0基准上,其性能已介于GPT-5.4与Claude Opus 4.6之间。

Composer 2在Terminal-Bench 2.0上的表现
从模型迭代速度来看,Composer系列的进化正在加快。

Composer模型的迭代进展
在定价方面,Composer 2标准版的输入价格为0.5美元/百万tokens,输出价格为2.5美元/百万tokens。与Claude Opus 4.6相比,价格优势明显。

Composer 2与Claude Opus 4.6的定价对比
此外,Cursor还推出了一个速度更快的变体Composer 2 Fast,其输入价格为1.5美元/百万tokens,输出价格为7.5美元/百万tokens。该版本在保持相同智能水平的同时,响应速度更快。
Cursor表示,能在性能与成本间取得平衡,关键在于引入了一种新的强化学习方法。

“自我总结”强化学习方法
这种方法的核心是让模型学会在长任务执行过程中,主动暂停并生成“阶段总结”(即“做笔记”),从而将超出上下文窗口容量的复杂任务,通过信息压缩的方式持续推进下去。
当前,处理长上下文任务的主流方法多围绕“压缩”展开,例如:
* 进行文本摘要后继续。
* 滑动上下文窗口,丢弃较早信息。
* 在潜在空间中进行向量压缩。
但这些方法都可能造成关键信息丢失,导致任务越长,模型表现越差。
Cursor的解决方案是将“自我总结”机制内化到模型的训练过程中。具体流程如下:
1. Composer模型持续生成,直到达到预设的token长度触发点。
2. 插入一个合成查询,要求模型总结当前上下文。
3. 模型在草稿空间中构思最佳总结,并生成压缩后的上下文。
4. 模型使用压缩后的上下文(包含总结及任务状态信息)回到步骤1,继续任务。

“自我总结”强化学习流程示意图
关键在于,这种总结能力是通过强化学习训练获得的,而非简单的推理技巧。在训练中,总结的质量会直接影响奖励信号:总结得当有助于后续任务成功,获得高奖励;总结丢失关键信息导致任务失败,则会受到惩罚。通过这种方式,模型学会了筛选和保留关键信息。
与传统摘要方法相比,该方法效率更高。在一组高难度软件工程任务测试中,传统方法需要数千tokens的提示词进行摘要,且压缩后平均仍需5000+tokens。而Composer仅需一句简单的“Please summarize the conversation”提示,压缩输出平均仅1000个tokens,用量约为传统方法的五分之一,且因压缩导致的错误减少了约50%。

与传统摘要方法的压缩效果对比
该方法有效解决了长链条任务挑战。在一个经典难题测试中——将Doom游戏移植到MIPS架构上运行——许多模型因任务复杂而中途失败。Composer经过170轮交互后成功完成,在此过程中将超过10万tokens的上下文压缩至约1000个。

Composer在Doom移植任务中的长上下文压缩示例
内部测试表明,通过将压缩整合进训练循环,Composer学会了一种高效传递关键信息的显式机制,从而在高难度任务上表现更佳。
Cursor的研究节奏很快,已有研究员开始透露Composer 3的相关消息。

Cursor的CEO表示,公司定位兼具应用程序开发商与模型提供商的双重角色。

参考链接:
[1]https://x.com/mntruell/status/2034729462211002505
[2]https://x.com/RoboIntellect/status/2034693646822580431?s=20
[3]https://x.com/cursor_ai/status/2033967614309835069?s=20
AI产品知识库是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者与研究者的核心信息枢纽与决策支持平台。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26558


