Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor近日发布了其新一代编程模型Composer 2。该模型在多项基准测试中表现超越Claude Opus 4.6,同时定价显著降低。其背后核心是一种名为“自我总结”的新型强化学习训练方法。

性能超越Claude,价格大幅降低

Composer 2是Cursor推出的最新编程模型。根据官方信息,该模型在包括Terminal-Bench 2.0和SWE-bench Multilingual在内的多项基准测试上均取得了显著提升。

例如,在衡量智能体终端操作能力的Terminal-Bench 2.0基准上,其性能已介于GPT-5.4与Claude Opus 4.6之间。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2在Terminal-Bench 2.0上的表现

从模型迭代速度来看,Composer系列的进化正在加快。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer模型的迭代进展

在定价方面,Composer 2标准版的输入价格为0.5美元/百万tokens,输出价格为2.5美元/百万tokens。与Claude Opus 4.6相比,价格优势明显。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer 2与Claude Opus 4.6的定价对比

此外,Cursor还推出了一个速度更快的变体Composer 2 Fast,其输入价格为1.5美元/百万tokens,输出价格为7.5美元/百万tokens。该版本在保持相同智能水平的同时,响应速度更快。

Cursor表示,能在性能与成本间取得平衡,关键在于引入了一种新的强化学习方法。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

“自我总结”强化学习方法

这种方法的核心是让模型学会在长任务执行过程中,主动暂停并生成“阶段总结”(即“做笔记”),从而将超出上下文窗口容量的复杂任务,通过信息压缩的方式持续推进下去。

当前,处理长上下文任务的主流方法多围绕“压缩”展开,例如:
* 进行文本摘要后继续。
* 滑动上下文窗口,丢弃较早信息。
* 在潜在空间中进行向量压缩。

但这些方法都可能造成关键信息丢失,导致任务越长,模型表现越差。

Cursor的解决方案是将“自我总结”机制内化到模型的训练过程中。具体流程如下:
1. Composer模型持续生成,直到达到预设的token长度触发点。
2. 插入一个合成查询,要求模型总结当前上下文。
3. 模型在草稿空间中构思最佳总结,并生成压缩后的上下文。
4. 模型使用压缩后的上下文(包含总结及任务状态信息)回到步骤1,继续任务。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
“自我总结”强化学习流程示意图

关键在于,这种总结能力是通过强化学习训练获得的,而非简单的推理技巧。在训练中,总结的质量会直接影响奖励信号:总结得当有助于后续任务成功,获得高奖励;总结丢失关键信息导致任务失败,则会受到惩罚。通过这种方式,模型学会了筛选和保留关键信息。

与传统摘要方法相比,该方法效率更高。在一组高难度软件工程任务测试中,传统方法需要数千tokens的提示词进行摘要,且压缩后平均仍需5000+tokens。而Composer仅需一句简单的“Please summarize the conversation”提示,压缩输出平均仅1000个tokens,用量约为传统方法的五分之一,且因压缩导致的错误减少了约50%。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
与传统摘要方法的压缩效果对比

该方法有效解决了长链条任务挑战。在一个经典难题测试中——将Doom游戏移植到MIPS架构上运行——许多模型因任务复杂而中途失败。Composer经过170轮交互后成功完成,在此过程中将超过10万tokens的上下文压缩至约1000个。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Composer在Doom移植任务中的长上下文压缩示例

内部测试表明,通过将压缩整合进训练循环,Composer学会了一种高效传递关键信息的显式机制,从而在高难度任务上表现更佳。

Cursor的研究节奏很快,已有研究员开始透露Composer 3的相关消息。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

Cursor的CEO表示,公司定位兼具应用程序开发商与模型提供商的双重角色。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技

参考链接:
[1]https://x.com/mntruell/status/2034729462211002505
[2]https://x.com/RoboIntellect/status/2034693646822580431?s=20
[3]https://x.com/cursor_ai/status/2033967614309835069?s=20

AI产品知识库是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者与研究者的核心信息枢纽与决策支持平台。

Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26558

(0)
上一篇 2026年3月20日 上午11:13
下一篇 2026年3月20日 下午11:47

相关推荐

  • 从统计物理到信息论:解码大模型第一性原理的三维理论框架

    2022年底ChatGPT的横空出世,标志着大模型时代的正式开启。短短三年间,从GPT系列到DeepSeek,再到Google Gemini 3的强势推出,大模型以惊人的速度迭代演进。仅在美国,AI领域的年度投资规模已超过许多国家全年GDP,这一数字背后反映的是全球对人工智能技术突破的狂热期待。然而,在技术狂欢的背后,一个根本性问题日益凸显:我们是否真正理解…

    2025年12月11日
    38200
  • 谷歌Nano Banana 2预览版深度解析:AI图像生成的新纪元与多模态能力突破

    近日,谷歌下一代AI图像生成模型Nano Banana 2(简称NB2)的预览版在第三方平台Media IO意外亮相,引发了科技界的广泛关注。尽管尚未正式发布,但基于泄露的测试结果,NB2展现出的性能飞跃已足以重新定义当前AI图像生成的边界。本文将从技术能力、应用场景及行业影响三个维度,对NB2进行全面剖析。 在技术层面,NB2的核心提升体现在生成速度、分辨…

    2025年11月9日
    34700
  • 2024年1月GitHub热门开源项目盘点:从AI金融分析到无向量RAG,这些工具正在重塑开发效率

    01 AI 金融分析 Agent:Dexter Dexter 是一款专注于金融研究的 AI 智能体。它能够像初级分析师一样工作,当你提出一个复杂的金融问题(例如分析某公司季度利润率变动的原因)时,它可以自主拆解任务并执行数据检索。 该智能体接入了实时市场数据源,能够查阅财报、损益表等关键财务文件,并内置了一套自我检查机制。当发现数据存在疑问时,它会进行反思并…

    2026年2月2日
    1.6K00
  • 谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

    做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。 为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。 那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。 如今,Google 将这个想法变成了现实。他们在 GitHub…

    2026年1月6日
    46000
  • 影目INMO:一年三轮融资近5亿,中国AI+AR眼镜如何以技术领跑全球赛道

    CES大奖拿到手软,中国创企正把AI+AR眼镜爆款做向全球。 在刚刚过去的CES 2026上,给人留下印象最为深刻的要数中国的AI眼镜军团和中国机器人军团。如果说人形机器人领域尚有波士顿动力这样的巨头能与中国大厂抗衡,那么AI眼镜赛道几乎完全成为中国公司主场。 据不完全统计,CES上展出各类AI眼镜的中国企业超过了27家,展区人头攒动十分火爆,产品体验热情颇…

    2026年1月15日
    53500