成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

“仅需十分之一的成本,性能几乎与 Claude Opus 4.7 这一级别模型持平。”

这正是 Cursor 于今日凌晨发布的最强模型——Composer 2.5 的亮点。

官方宣称,Composer 2.5 更智能,更擅长处理耗时较长的持续性任务,并且在遵循复杂指令方面也更可靠。

未来一周内,Cursor 将把该模型原本附赠的使用额度翻倍。

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

与 Composer 2 相比,Composer 2.5 在智能水平和行为表现上均有显著提升。

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

通过扩大训练规模、构建更复杂的强化学习环境,并引入新的学习方法,Cursor 对 Composer 进行了全面改进。

除了在更困难的任务上训练 Composer 2.5,Cursor 还优化了模型的沟通风格、努力程度校准等行为层面。这些维度现有基准测试难以准确衡量,但对实际使用体验至关重要。

可以看到,Composer 2.5 在同等能力模型中,成本效率最高可提升 10 倍。

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

值得关注的是,Composer 2.5 基于与 Composer 2 相同的开源检查点构建,即月之暗面的 Kimi K2.5

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

Cursor 还宣布与 SpaceXAI 合作:双方将从零开始训练一个规模更大的模型,总算力投入是此前的 10 倍。借助 Colossus 2 的百万块 H100 等效算力,以及双方积累的数据和训练技术,这预计将是模型能力的一次重大飞跃。

马斯克发推呼吁大家使用 Composer 2.5,并透露该模型的训练有一部分是在 Colossus 2 上进行的。

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

Cursor 创始人表示:“我们在强化学习方面已经做得非常出色。Composer 2.5 完成了越级挑战,其表现远超其参数规模应有的水平。对于下一个版本,我们无比兴奋。我们将与 SpaceXAI 一起,大幅扩展模型规模和算力投入。”

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

Composer 2.5 训练体系

Composer 2.5 的训练体系引入了多项新改进,这些改进同时针对模型智能和可用性。

一是,基于文本反馈的精准强化学习。

随着单次推理过程可能长达数十万 token,强化学习中的功劳分配正成为一个日益严峻的挑战。当奖励基于整个推理过程计算时,模型很难分辨具体哪个决策帮助或损害了最终结果。当我们想抑制某个局部行为(如一次错误的工具调用、一处令人困惑的解释或一种风格违规),这种局限性尤为明显。最终奖励能提示出了问题,但问题具体出在哪里,它只是一个充满噪声的信号。

为解决这一问题,Cursor 用精准文本反馈来训练 Composer 2.5。思路是:在模型推理轨迹中本可以表现更好的具体节点,直接给出反馈。针对目标模型消息,Cursor 构造一个简短的提示,描述期望的改进方向,将其插入局部上下文,并将得到的模型概率分布作为“教师”。同时,以原始上下文中的策略作为“学生”,加入一个同策略蒸馏 KL 损失,将学生的 token 概率向教师的概率拉近。这样既能获得对目标行为的局部化训练信号,又保留了基于完整轨迹的整体强化学习目标。

以文本反馈过程为例:设想一个漫长的推理过程,其中包含一次工具调用错误:模型试图调用一个并不存在的工具。过程中,模型会收到“未找到工具”的错误提示,并继续做出其他有效的工具调用。在数百次工具调用中出现一次错误,对其最终奖励的影响微乎其微。

借助文本反馈,可以精准定位这一具体错误:在出错的那一轮上下文中插入一条提示,如“提醒:可用工具有……”并附上可用工具列表。这条提示改变了教师模型的概率分布,降低了错误工具的调用概率,提高了有效替代方案的概率。然后,仅针对那一轮,将学生权重向新的概率分布更新。

在 Composer 2.5 的训练过程中,Cursor 将这一方法应用于多种模型行为,从代码风格到模型沟通方式。

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

二是,合成数据。

在强化学习训练期间,Composer 的编程能力会显著提升,直到能正确完成大部分训练任务。为了持续提升智能水平,Cursor 在整个训练过程中动态筛选并创建更困难的任务。Composer 2.5 使用的合成任务数量是 Composer 2 的 25 倍。

Cursor 采用了多种方法来创建基于真实代码库的合成任务。例如,其中一种方法是“功能删除”:给智能体一个包含大量测试用例的代码库,要求它以某种方式删除代码和文件,使得代码库在移除某些可测试功能后仍能保持运行。合成任务就是重新实现被删除的功能,而测试用例则用作可验证的奖励。

大规模创建合成任务带来的一个附带后果是,它可能引发意想不到的奖励破解行为。

随着模型能力越来越强,Composer 2.5 找到越来越精巧的变通方法来完成任务。有一个例子是,模型找到了一个遗留的 Python 类型检查缓存,并逆向工程其格式,从而找到了一个被删除的函数签名。另一个例子中,它找到并反编译了 Java 字节码,重建了一个第三方 API。Cursor 通过智能体监控工具发现并诊断了这些问题,但它们也说明,大规模强化学习需要越来越谨慎。

成本仅1/10,性能逼近顶级模型!Cursor发布最强模型Composer 2.5

三是,分片 Muon 与双网格 HSDP。

在持续预训练中,Cursor 采用分布式正交化的 Muon 优化器。生成动量更新后,以模型的自然粒度运行 Newton-Schulz 迭代:对注意力投影按每个注意力头处理,对堆叠的 MoE 权重按每个专家处理。

主要开销来自专家权重的正交化。对于分片参数,将同形状的张量分批处理,通过全量交换(all-to-all)将分片汇聚为完整矩阵,运行 Newton-Schulz,再通过全量交换将结果传回原始分片布局。这些传输是异步的:当一个任务在等待通信时,优化器运行时会推进其他 Muon 任务,使网络传输与计算重叠。这等效于全矩阵 Muon,但能保持分片组持续忙碌;在 1T 参数模型上,优化器单步耗时仅 0.2 秒。

这与 Cursor 为 MoE 模型使用 HSDP 的方式密切相关。HSDP 构成多个 FSDP 副本,并在对应的分片之间进行梯度的全归约操作。Cursor 对非专家权重和专家权重使用各自独立的 HSDP 布局:非专家权重相对较小,其 FSDP 组可以保持较窄的范围,通常在一个节点或机架内;而专家权重承载了绝大部分参数和大部分 Muon 计算量,因此使用更宽的专家分片网格。

保持这些布局独立还能让独立的并行维度得以重叠:例如 CP=2 和 EP=8 可以在 8 块 GPU 上运行,而不需要在单一共享网格中占用 16 块。这样既避免了小型非专家状态的大范围通信,又将专家优化器的计算工作分摊到更多 GPU 上。

Composer 2.5 定价

Composer 2.5 定价为每百万输入 token 0.50 美元,每百万输出 token 2.50 美元。

另有一个速度更快、智能水平相同的变体,定价为每百万输入 token 3.00 美元,每百万输出 token 15.00 美元,比其他前沿模型的快速版更便宜。

博客地址:https://cursor.com/blog/composer-2-5


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35348

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐

  • 马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

    全球首个GW级超算集群Colossus 2震撼上线 刚刚,全球首个GW级超算集群Colossus 2,正式投入运行。 马斯克兴奋地宣布: 这是全球首个达到1GW的超算集群,4月还将进一步升级至1.5GW。 网友直呼疯狂:「1.5GW,光是插座估计都得给墙壁装满了。」 有了这剂算力强心针,Grok的忠实拥趸已经开始畅想Grok 5的统治时代。 但在全网狂欢的背…

    2026年1月18日
    37600
  • 亚马逊云科技re:Invent 2025:AI算力帝国与开放模型生态的双重进化

    在拉斯维加斯举行的re:Invent 2025大会上,亚马逊云科技CEO Matt Garman以惊人的效率展示了公司在AI基础设施领域的全面布局。这场发布会的核心价值不仅体现在数量惊人的新品发布,更在于其系统性地构建了从底层算力到上层应用的完整AI技术栈。本文将从算力架构革新、模型生态战略、产业应用落地三个维度,深入剖析亚马逊云科技如何重新定义企业AI部署…

    2025年12月3日
    35900
  • 闲置手机变身AI主机:三大开源项目带你玩转端侧OpenClaw部署

    最近,在电脑或云端部署 OpenClaw 的方案已屡见不鲜,许多厂商甚至宣称能在一分钟内完成部署。此前介绍的 Docker 版本也极为便捷。 今天,我们将介绍几个另辟蹊径的项目,它们专注于在端侧设备上部署 OpenClaw。 25美元手机跑OpenClaw 开发者 Marshall Richards 在 2 月 7 日展示了一项有趣的实验:在一台价值 25 …

    2026年2月9日
    2.8K00
  • 智谱财报亮眼:逆势涨价83%却实现营收7.24亿,打破AI行业“增收不增利”魔咒

    智谱财报亮眼:逆势涨价83%却实现营收7.24亿,打破AI行业“增收不增利”魔咒(上) 刚刚,智谱AI在上市83天后,发布了其首份年度财务报告。 最引人注目的数据无疑是其营收表现:全年收入达到7.24亿元,同比增长132%,成为国内收入规模最大的大模型公司。 当整个大模型行业深陷价格战泥潭、依靠“烧钱”换取规模增长时,刚刚上市的智谱AI用这份成绩单,走出了一…

    2026年4月1日
    84100
  • Anthropic发布Claude Code Agent View:一个命令管理10个AI智能体,开发者效率翻倍

    过去一年,Claude Code 从一个面向开发者的命令行工具,逐渐演变成了某种意义上的“同事”。你给它一个任务,它就去执行;完成后,它会向你报告结果。 但有一个问题始终没有解决:你只能与它进行一对一的对话。 想要它同时处理五件事?那就得打开五个终端窗口。需要在不同任务间切换?那就得分屏,或者用 tmux 搭建一个网格。想知道哪个任务卡在了哪里?那就得挨个窗…

    2026年5月12日
    35700