Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor近日发布了其新一代编程模型Composer 2。该模型在多项基准测试中表现超越Claude Opus 4.6,同时定价显著降低。其背后核心是一种名为“自我总结”的新型强化学习训练方法。

性能超越Claude,价格大幅降低

Composer 2是Cursor推出的最新编程模型。根据官方信息,该模型在包括Terminal-Bench 2.0和SWE-bench Multilingual在内的多项基准测试上均取得了显著提升。

例如,在衡量智能体终端操作能力的Terminal-Bench 2.0基准上,其性能已介于GPT-5.4与Claude Opus 4.6之间。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2在Terminal-Bench 2.0上的表现

从模型迭代速度来看,Composer系列的进化正在加快。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer模型的迭代进展

在定价方面,Composer 2标准版的输入价格为0.5美元/百万tokens,输出价格为2.5美元/百万tokens。与Claude Opus 4.6相比,价格优势明显。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2与Claude Opus 4.6的定价对比

此外,Cursor还推出了一个速度更快的变体Composer 2 Fast,其输入价格为1.5美元/百万tokens,输出价格为7.5美元/百万tokens。该版本在保持相同智能水平的同时,响应速度更快。

Cursor表示,能在性能与成本间取得平衡,关键在于引入了一种新的强化学习方法。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

“自我总结”强化学习方法

这种方法的核心是让模型学会在长任务执行过程中,主动暂停并生成“阶段总结”(即“做笔记”),从而将超出上下文窗口容量的复杂任务,通过信息压缩的方式持续推进下去。

当前,处理长上下文任务的主流方法多围绕“压缩”展开,例如:
* 进行文本摘要后继续。
* 滑动上下文窗口,丢弃较早信息。
* 在潜在空间中进行向量压缩。

但这些方法都可能造成关键信息丢失,导致任务越长,模型表现越差。

Cursor的解决方案是将“自我总结”机制内化到模型的训练过程中。具体流程如下:
1. Composer模型持续生成,直到达到预设的token长度触发点。
2. 插入一个合成查询,要求模型总结当前上下文。
3. 模型在草稿空间中构思最佳总结,并生成压缩后的上下文。
4. 模型使用压缩后的上下文(包含总结及任务状态信息)回到步骤1,继续任务。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
“自我总结”强化学习流程示意图

关键在于,这种总结能力是通过强化学习训练获得的,而非简单的推理技巧。在训练中,总结的质量会直接影响奖励信号:总结得当有助于后续任务成功,获得高奖励;总结丢失关键信息导致任务失败,则会受到惩罚。通过这种方式,模型学会了筛选和保留关键信息。

与传统摘要方法相比,该方法效率更高。在一组高难度软件工程任务测试中,传统方法需要数千tokens的提示词进行摘要,且压缩后平均仍需5000+tokens。而Composer仅需一句简单的“Please summarize the conversation”提示,压缩输出平均仅1000个tokens,用量约为传统方法的五分之一,且因压缩导致的错误减少了约50%。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
与传统摘要方法的压缩效果对比

该方法有效解决了长链条任务挑战。在一个经典难题测试中——将Doom游戏移植到MIPS架构上运行——许多模型因任务复杂而中途失败。Composer经过170轮交互后成功完成,在此过程中将超过10万tokens的上下文压缩至约1000个。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer在Doom移植任务中的长上下文压缩示例

内部测试表明,通过将压缩整合进训练循环,Composer学会了一种高效传递关键信息的显式机制,从而在高难度任务上表现更佳。

Cursor的研究节奏很快,已有研究员开始透露Composer 3的相关消息。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor的CEO表示,公司定位兼具应用程序开发商与模型提供商的双重角色。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

参考链接:
[1]https://x.com/mntruell/status/2034729462211002505
[2]https://x.com/RoboIntellect/status/2034693646822580431?s=20
[3]https://x.com/cursor_ai/status/2033967614309835069?s=20

AI产品知识库是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者与研究者的核心信息枢纽与决策支持平台。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26558

(0)
上一篇 2026年3月20日 上午11:13
下一篇 2026年3月20日 下午11:47

相关推荐

  • Hugging Face桌面机器人Reachy Mini销量破百万美元,中国公司矽递科技成幕后关键

    去年,Hugging Face推出了一款名为Reachy Mini的桌面机器人。 这款身高28厘米、体重1.5公斤的机器人,在过去大半年里取得了亮眼的成绩:发布后5天内销售额便突破100万美元,累计出货量超过3000台,甚至还登上了黄仁勋在CES的展台。 这一成绩也让更多人意识到,这个被誉为“AI界GitHub”的平台,正将其开源理念带入具身智能的硬件领域。…

    2026年3月30日
    63600
  • AI驱动财富重构:2026福布斯中国富豪榜揭示硬科技制造崛起与平台经济转型

    2026年2月2日,福布斯官方发布了截至2026年1月的中国富豪榜单。这份被视为“中国经济晴雨表”的榜单一经发布,便引发了广泛关注。 榜单呈现出剧烈的结构性变动:* 张一鸣凭借字节跳动在AI领域的全面布局,以693亿美元财富首次登顶,终结了钟睒睒连续五年的榜首地位。* 雷军则受益于小米汽车的爆发式增长,以304亿美元身家首次跻身前十,并以8亿美元的优势超越了…

    2026年2月4日
    98200
  • SimKO算法突破RLVR探索困境:实现大模型推理中探索与利用的平衡

    在DeepSeek-R1、Kimi1.5等模型相继展示强化学习对大型语言模型复杂推理能力的显著提升后,可验证强化学习(RLVR)在数学、逻辑与编程等领域的应用已成为研究热点。然而,现有RLVR方法在提升模型pass@1性能的同时,却导致pass@K(K>1)性能下降,这一矛盾现象揭示了当前强化学习范式的根本缺陷。 **RLVR的探索困境:概率分布的过度…

    2025年11月8日
    34100
  • PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

    PerturbDiff:将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA 如何利用AI预测一款抗癌新药对特定癌细胞的影响?一个直观的思路是让AI学习同一个细胞在药物处理前后的基因表达变化规律。 然而,单细胞转录组测序(scRNA-seq)的“破坏性”构成了根本障碍:一旦对细胞状态进行观测,该细胞即被溶解。因此,我们无法在施加微扰(如药物干预、基因编辑)…

    2026年3月12日
    41000
  • 人形机器人半马超越人类,具身智能路线之争白热化

    近日,人形机器人第一次在真正意义上,“超越” 了人类。 2026 北京亦庄人形机器人半程马拉松赛上,荣耀人形机器人 “闪电” 凭借 50 分 26 秒(净用时)的成绩,获得此次比赛冠军,并大幅领先目前人类男子半程马拉松世界的最新纪录是 57 分 20 秒。 与此同时,宇树 H1(2023 年改版)则自主跑完 1.9 公里多弯道赛程,用时 4 分 13 秒,按…

    2026年4月25日
    31100