Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor近日发布了其新一代编程模型Composer 2。该模型在多项基准测试中表现超越Claude Opus 4.6,同时定价显著降低。其背后核心是一种名为“自我总结”的新型强化学习训练方法。

性能超越Claude,价格大幅降低

Composer 2是Cursor推出的最新编程模型。根据官方信息,该模型在包括Terminal-Bench 2.0和SWE-bench Multilingual在内的多项基准测试上均取得了显著提升。

例如,在衡量智能体终端操作能力的Terminal-Bench 2.0基准上,其性能已介于GPT-5.4与Claude Opus 4.6之间。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2在Terminal-Bench 2.0上的表现

从模型迭代速度来看,Composer系列的进化正在加快。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer模型的迭代进展

在定价方面,Composer 2标准版的输入价格为0.5美元/百万tokens,输出价格为2.5美元/百万tokens。与Claude Opus 4.6相比,价格优势明显。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2与Claude Opus 4.6的定价对比

此外,Cursor还推出了一个速度更快的变体Composer 2 Fast,其输入价格为1.5美元/百万tokens,输出价格为7.5美元/百万tokens。该版本在保持相同智能水平的同时,响应速度更快。

Cursor表示,能在性能与成本间取得平衡,关键在于引入了一种新的强化学习方法。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

“自我总结”强化学习方法

这种方法的核心是让模型学会在长任务执行过程中,主动暂停并生成“阶段总结”(即“做笔记”),从而将超出上下文窗口容量的复杂任务,通过信息压缩的方式持续推进下去。

当前,处理长上下文任务的主流方法多围绕“压缩”展开,例如:
* 进行文本摘要后继续。
* 滑动上下文窗口,丢弃较早信息。
* 在潜在空间中进行向量压缩。

但这些方法都可能造成关键信息丢失,导致任务越长,模型表现越差。

Cursor的解决方案是将“自我总结”机制内化到模型的训练过程中。具体流程如下:
1. Composer模型持续生成,直到达到预设的token长度触发点。
2. 插入一个合成查询,要求模型总结当前上下文。
3. 模型在草稿空间中构思最佳总结,并生成压缩后的上下文。
4. 模型使用压缩后的上下文(包含总结及任务状态信息)回到步骤1,继续任务。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
“自我总结”强化学习流程示意图

关键在于,这种总结能力是通过强化学习训练获得的,而非简单的推理技巧。在训练中,总结的质量会直接影响奖励信号:总结得当有助于后续任务成功,获得高奖励;总结丢失关键信息导致任务失败,则会受到惩罚。通过这种方式,模型学会了筛选和保留关键信息。

与传统摘要方法相比,该方法效率更高。在一组高难度软件工程任务测试中,传统方法需要数千tokens的提示词进行摘要,且压缩后平均仍需5000+tokens。而Composer仅需一句简单的“Please summarize the conversation”提示,压缩输出平均仅1000个tokens,用量约为传统方法的五分之一,且因压缩导致的错误减少了约50%。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
与传统摘要方法的压缩效果对比

该方法有效解决了长链条任务挑战。在一个经典难题测试中——将Doom游戏移植到MIPS架构上运行——许多模型因任务复杂而中途失败。Composer经过170轮交互后成功完成,在此过程中将超过10万tokens的上下文压缩至约1000个。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer在Doom移植任务中的长上下文压缩示例

内部测试表明,通过将压缩整合进训练循环,Composer学会了一种高效传递关键信息的显式机制,从而在高难度任务上表现更佳。

Cursor的研究节奏很快,已有研究员开始透露Composer 3的相关消息。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor的CEO表示,公司定位兼具应用程序开发商与模型提供商的双重角色。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

参考链接:
[1]https://x.com/mntruell/status/2034729462211002505
[2]https://x.com/RoboIntellect/status/2034693646822580431?s=20
[3]https://x.com/cursor_ai/status/2033967614309835069?s=20

AI产品知识库是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者与研究者的核心信息枢纽与决策支持平台。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26558

(0)
上一篇 2小时前
下一篇 2026年3月1日 上午9:34

相关推荐

  • PartCrafter:结构化3D生成革命,从单图到可编辑部件级网格的端到端突破

    在计算机图形学与人工智能生成内容(AIGC)的交叉领域,从单张二维图像直接生成高质量三维模型一直是学术界和工业界共同追求的目标。然而,传统3D生成模型普遍存在一个根本性局限:它们将三维物体视为不可分割的“黑箱”整体进行处理,生成的模型虽然外观逼真,但内部结构完全融合,用户无法对个别部件(如椅子的腿、汽车的轮子、桌子的抽屉)进行独立编辑、移动、旋转或替换。这种…

    2025年11月27日
    20800
  • 多模态大模型决策机制深度解析:从宏观偏好到微观不确定性

    多模态大语言模型(MLLMs)作为人工智能领域的前沿技术,在整合视觉、文本等多种信息源方面展现出卓越能力。然而,当不同模态呈现相互冲突的信息时(例如图像显示蓝色汽车而文本描述为红色),模型如何做出最终决策成为一个关键科学问题。传统研究通常将模型选择与某一模态保持一致的行为称为“模态跟随”,并通过数据集层面的宏观统计数据来衡量。但这种方法存在根本性缺陷:它忽略…

    2025年11月14日
    16500
  • Sunday Robotics获1.65亿美元B轮融资,估值11.5亿美元成独角兽,目标让机器人从Demo走向真实家庭

    Sunday Robotics完成1.65亿美元B轮融资,估值达11.5亿美元 由斯坦福具身智能领域研究者赵子豪(Tony Zhao)与迟宬(Cheng Chi)联合创立的机器人公司Sunday Robotics,近日宣布完成1.65亿美元的B轮融资。本轮融资后,公司估值升至11.5亿美元,正式成为独角兽企业。 该公司于去年11月正式发布其轮式机器人产品Me…

    2026年3月13日
    22400
  • 对话九合王啸:90%具身智能公司没未来,市场名额只有三五家

    2026年初,具身智能赛道再度涌入大量资本。 在喧嚣的资本浪潮中,能够做出专业判断、锚定长期趋势的投资人屈指可数,王啸是其中之一。 在人工智能尚未成为风口的十余年前,他便带领九合创投布局AI相关领域。当大模型底层框架还未成为行业焦点时,他投资了一流科技,其研发的OneFlow后来成为世界首个面向大模型大数据的人工智能计算框架。在具身智能仍是创投圈小众话题时,…

    2026年3月1日
    13200
  • 马斯克xAI帝国全景解析:从Grok迭代到AGI竞赛的算力与数据双轮驱动

    在人工智能领域,埃隆·马斯克正以xAI为核心,通过Grok模型的快速迭代、X平台的数据生态以及特斯拉的算力基础设施,构建一个前所未有的AGI(通用人工智能)发展体系。这一战略不仅体现了马斯克对AI技术路线的独特思考,更揭示了未来人工智能竞赛的关键维度——数据质量、算力规模与平台整合的深度融合。 马斯克近期公开预测,到2030年AI的整体能力“可能会超过全人类…

    2025年11月16日
    17800