Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor近日发布了其新一代编程模型Composer 2。该模型在多项基准测试中表现超越Claude Opus 4.6,同时定价显著降低。其背后核心是一种名为“自我总结”的新型强化学习训练方法。

性能超越Claude,价格大幅降低

Composer 2是Cursor推出的最新编程模型。根据官方信息,该模型在包括Terminal-Bench 2.0和SWE-bench Multilingual在内的多项基准测试上均取得了显著提升。

例如,在衡量智能体终端操作能力的Terminal-Bench 2.0基准上,其性能已介于GPT-5.4与Claude Opus 4.6之间。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2在Terminal-Bench 2.0上的表现

从模型迭代速度来看,Composer系列的进化正在加快。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer模型的迭代进展

在定价方面,Composer 2标准版的输入价格为0.5美元/百万tokens,输出价格为2.5美元/百万tokens。与Claude Opus 4.6相比,价格优势明显。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2与Claude Opus 4.6的定价对比

此外,Cursor还推出了一个速度更快的变体Composer 2 Fast,其输入价格为1.5美元/百万tokens,输出价格为7.5美元/百万tokens。该版本在保持相同智能水平的同时,响应速度更快。

Cursor表示,能在性能与成本间取得平衡,关键在于引入了一种新的强化学习方法。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

“自我总结”强化学习方法

这种方法的核心是让模型学会在长任务执行过程中,主动暂停并生成“阶段总结”(即“做笔记”),从而将超出上下文窗口容量的复杂任务,通过信息压缩的方式持续推进下去。

当前,处理长上下文任务的主流方法多围绕“压缩”展开,例如:
* 进行文本摘要后继续。
* 滑动上下文窗口,丢弃较早信息。
* 在潜在空间中进行向量压缩。

但这些方法都可能造成关键信息丢失,导致任务越长,模型表现越差。

Cursor的解决方案是将“自我总结”机制内化到模型的训练过程中。具体流程如下:
1. Composer模型持续生成,直到达到预设的token长度触发点。
2. 插入一个合成查询,要求模型总结当前上下文。
3. 模型在草稿空间中构思最佳总结,并生成压缩后的上下文。
4. 模型使用压缩后的上下文(包含总结及任务状态信息)回到步骤1,继续任务。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
“自我总结”强化学习流程示意图

关键在于,这种总结能力是通过强化学习训练获得的,而非简单的推理技巧。在训练中,总结的质量会直接影响奖励信号:总结得当有助于后续任务成功,获得高奖励;总结丢失关键信息导致任务失败,则会受到惩罚。通过这种方式,模型学会了筛选和保留关键信息。

与传统摘要方法相比,该方法效率更高。在一组高难度软件工程任务测试中,传统方法需要数千tokens的提示词进行摘要,且压缩后平均仍需5000+tokens。而Composer仅需一句简单的“Please summarize the conversation”提示,压缩输出平均仅1000个tokens,用量约为传统方法的五分之一,且因压缩导致的错误减少了约50%。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
与传统摘要方法的压缩效果对比

该方法有效解决了长链条任务挑战。在一个经典难题测试中——将Doom游戏移植到MIPS架构上运行——许多模型因任务复杂而中途失败。Composer经过170轮交互后成功完成,在此过程中将超过10万tokens的上下文压缩至约1000个。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer在Doom移植任务中的长上下文压缩示例

内部测试表明,通过将压缩整合进训练循环,Composer学会了一种高效传递关键信息的显式机制,从而在高难度任务上表现更佳。

Cursor的研究节奏很快,已有研究员开始透露Composer 3的相关消息。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor的CEO表示,公司定位兼具应用程序开发商与模型提供商的双重角色。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

参考链接:
[1]https://x.com/mntruell/status/2034729462211002505
[2]https://x.com/RoboIntellect/status/2034693646822580431?s=20
[3]https://x.com/cursor_ai/status/2033967614309835069?s=20

AI产品知识库是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者与研究者的核心信息枢纽与决策支持平台。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26558

(0)
上一篇 2026年3月20日 上午11:13
下一篇 2026年3月20日 下午11:47

相关推荐

  • 腾讯青云奖学金首秀:姚顺雨亲颁百万奖金,揭秘AI人才培养新战略

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 来围观腾讯青云奖学金颁奖,竟然偶遇了姚顺雨。 这位27岁的腾讯首席AI科学家,在腾讯大楼的线下公开亮相,不是发布重磅产品,也不是解读战略布局——而是给一群青年研究者颁发青云奖学金。 上一次他在公开场合露面还是在AGI-Next前沿峰会上。这波在腾讯的首秀确实“不按常理出牌”。 为更值得的探索 青云奖学金是…

    2026年1月31日
    21600
  • 英伟达专家预言:世界建模将取代词预测,开启AI预训练新纪元

    henry 发自 凹非寺 量子位 | 公众号 QbitAI 继“下一个词预测”之后,世界建模将成为新的预训练范式。 这是英伟达机器人主管Jim Fan 给出的最新判断。 他认为,2026年将成为大世界模型(Large World Models)真正为机器人领域以及更广义的多模态AI奠定基础的第一年。 谢赛宁随即转发表示赞同:“事后看来显而易见”。 在这篇长文…

    2026年2月5日
    21500
  • AI伦理边界:xAI“虚拟女友”Ani背后的生物数据争议与行业警示

    在生成式AI技术狂飙突进的当下,埃隆·马斯克旗下xAI公司推出的虚拟伴侣Ani引发了前所未有的伦理争议。这款金发双马尾的动漫风格AI女友,表面上代表着AI情感交互的前沿探索,实则暴露了科技公司在数据采集与隐私保护之间的严重失衡。本文将从技术实现、伦理困境、行业影响三个维度,深入剖析这一事件背后的深层问题。 从技术架构来看,Ani代表了当前多模态AI系统的高度…

    2025年11月8日
    38800
  • EverMemOS:为AI智能体注入“时间灵魂”的长期记忆操作系统深度解析

    在人工智能技术快速演进的当下,长期记忆能力正成为区分普通AI工具与高级智能体的关键分水岭。近日,EverMind团队正式发布其旗舰产品EverMemOS,这款面向人工智能智能体的世界级长期记忆操作系统,旨在成为未来智能体的数据基础设施,为AI赋予持久、连贯、可进化的“灵魂”。本文将从技术架构、行业意义、应用场景三个维度,对这一突破性系统进行深入分析。 **一…

    2025年11月16日
    35200
  • 全球第一GUI智能体Mano-P 1.0亮相:断崖领先13.2%,纯视觉操作桌面软件,数据零上云

    自从AI智能体展现出在电脑上执行操作的能力以来,人们对其应用场景的想象不断拓展。例如,能否让AI智能体代替用户完成一些复杂的桌面软件操作任务? 然而,现有的一些智能体方案在操作图形用户界面时仍显笨拙。它们往往需要依赖特定的插件或技能库,执行复杂任务时不够流畅,这限制了其在严肃工作流程中的应用。 近期,明略科技发布了其全新进化的面向端侧设备的GUI-VLA智能…

    2026年4月13日
    60200