Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

Cursor套壳Kimi的争议仍在继续。

近日,Cursor发布了Composer 2的技术报告,试图证明其并非简单套用,而是进行了有技术含量的、循序渐进的研发工作。

报告强调,其方法核心仍是此前提及的预训练与强化学习相结合的技术路线。

与此前不同的是,Cursor在报告中明确标注了基础模型来源为Kimi K2.5

这一迅速且明确的署名行为,显示出其态度转变,甚至被外界视为已与Kimi官方达成某种和解。

然而,许多网友对此并不认可。

Cursor的技术路径:基于Kimi K2.5的两步训练

报告开篇,Cursor首先评估并肯定了Kimi K2.5的基础能力,称其在多项潜在开源基础模型中综合表现最佳,且在执行效率等方面具备优势。

随后,报告详细阐述了基于Kimi K2.5的两步独立训练流程:持续预训练与异步强化学习。

1. 持续预训练
此阶段旨在提升模型在编码领域的基础能力,为后续强化学习训练做准备。主要分为三个子阶段:
– 将主要计算资源投入32K令牌序列长度的训练。
– 进行短期的上下文扩展训练,将序列长度提升至256K。
– 通过小样本指令微调,使模型适配特定代码任务。

此外,为提升推理速度,模型引入了多令牌预测层,并结合投机解码与自蒸馏策略以保障收敛速度。训练数据显示,模型在自研代码库上的损失值呈对数线性下降,且代码库困惑度与下游强化学习性能正相关,证明了预训练的有效性。

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

2. 异步强化学习
训练环境高度模拟真实的Cursor对话场景,覆盖各类软件工程核心任务。训练框架基于大规模策略梯度实现,采用单指令多样本的策略梯度算法,并设置固定样本组大小以保持稳定。
– 每条指令仅参与一次训练,使用Adam优化器更新全部参数。
– 优化了GRPO算法,移除了长度标准化项以避免偏差,并引入KL散度进行正则化。

研究指出,最终模型的平均性能最佳采样性能同步提升,表明强化学习不仅重新加权了推理路径,还扩展了正确解决方案的覆盖范围。

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

Composer 2还引入了一系列辅助奖励机制,包括对代码风格、交互表达的奖励,以及对不当工具调用的惩罚,并根据训练中涌现的行为动态调整规则。

自研评估基准:CursorBench

为进行评估,Cursor推出了自研的内部评估集——CursorBench。该基准的任务均源自真实的智能体使用场景,评估维度不仅包括功能正确性,还涵盖代码质量、执行效率、智能体交互等多个方面。

数据显示,CursorBench的任务代码修改量更大(中位数181行),而指令提示则更简洁(中位数390字符),更贴近实际使用。

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

在测试结果上,Composer 2在CursorBench-3中的准确率达到61.3%,较其1.5版本和1.0版本分别有显著提升,相比基础模型Kimi K2.5也有大幅进步。

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

报告总结称,Composer 2在成本与精度上实现了帕累托最优,推理成本与更小模型相当,精度则可媲美更大尺寸的前沿模型,令牌使用效率也与其它先进模型持平。

杨植麟论大模型发展的未来方向

在Cursor发布报告的同时,Kimi创始人杨植麟在中关村论坛的演讲中,分享了对大模型及训练范式的最新思考。

他认为,大模型的本质是将能源转化为智能,关键在于实现规模化。有效的规模化并非盲目堆砌算力,而需讲求方法与效率。

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

Kimi的规模化策略聚焦于三点:
1. 提升令牌效率:追求以有限数据学习更多智能。
2. 扩展上下文长度:通过创新的网络架构(如Kimi Linear)和训练数据,从根本上提升长上下文处理能力。
3. 引入智能体集群:在Kimi K2.5中提出,通过多个智能体协作解决复杂问题,实现输入、输出、执行与编排的规模化。

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

同时,杨植麟强调了底层网络架构的重要性。例如,其开源的注意力残差架构,可视为注意力机制在网络深度上的LSTM变种,能更高效地利用各层信息。他指出,在当今算力更强、研究更工程化的背景下,过去的技术标准答案可以被重新挑战和改进。

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

关于开源,杨植麟表示将持续推进:

开源模型正在成为新的标准。以Kimi K2.5为代表的开源模型,已成为全球芯片厂商测试硬件性能的基准,也被众多研究机构采用。我们希望通过开源降低获取智能的门槛,最终形成开源生态系统,共同推动AI发展。

最后,他断言大模型训练已进入第三阶段

Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账

  • 第一阶段(2023-2024年):以天然数据为主,人工标注为辅。
  • 第二阶段(2025年):更重视人工筛选高质量任务,并构建大规模强化学习系统。
  • 第三阶段(2026年起):AI研发流程发生根本变化,研发主体将从人转向AI。AI将自主合成任务、构建训练环境乃至探索新架构,研究员更多提供算力与令牌资源。AI将从被训练者,逐渐转变为研发的参与者与主导者,推动领域发展速度急剧提升。

参考资料
[1] https://x.com/cursor_ai/status/2036566134468542651
[2] https://cursor.com/resources/Composer2.pdf
[3] https://mp.weixin.qq.com/s/GjN_dx380VnUmRWHGRajiA


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/27650

(0)
上一篇 2026年3月27日 上午10:34
下一篇 2026年3月27日 上午10:36

相关推荐

  • IntelliFold 2:超越AlphaFold 3,开源生物基石模型树立生成式科学智能新标杆

    在生成式人工智能(GenAI)推动的“生成式科学智能”浪潮中,生物基石模型因其对生命科学的深远影响而备受瞩目。生命语言(如序列、结构)与人类语言具有相似的序列化特征,但其背后遵循着严苛的物理约束与生物演化逻辑,长期以来难以被完全解析。正因其对人类社会生产与生活的关键作用,生物基石模型被视为该领域“皇冠上的明珠”。 生物基石模型的核心价值,在于能够借助Tran…

    2026年2月8日
    24300
  • ICLR 2026数据泄露事件深度剖析:从API漏洞到AI生成审稿的学术信任危机

    2025年11月27日,全球AI学术圈经历了一场前所未有的信任危机。国际学习表征会议(ICLR)2026的评审系统因OpenReview平台的一个API漏洞,导致超过1万篇投稿论文的评审信息在61分钟内大规模泄露。这一事件不仅暴露了学术评审系统的安全脆弱性,更引发了关于同行评审制度有效性和AI在学术评价中角色的深刻反思。 技术层面的漏洞分析显示,问题根源在于…

    2025年12月4日
    36400
  • MCP 被彻底玩明白了:Anthropic 用对方法让智能体成本直降近百倍!

    Anthropic 的最新研究揭示了当前 MCP 实现中的一个核心效率瓶颈:AI 代理在开始处理用户请求前,需要预先加载大量工具定义,消耗高达 150,000 个 tokens。而实现相同功能,理论上仅需约 2,000 个 tokens,这意味着有 98.7% 的上下文开销是冗余的。 这一问题在生产环境中尤为突出。当 AI 代理需要连接数十个 MCP 服务器…

    2025年11月17日
    29400
  • 清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40%

    清华团队开源Motus:首个统一五大范式的具身世界模型,性能超越Pi-0.5达40% 由生数科技联合清华大学开源的大一统世界模型——Motus,在架构上首次将视觉-语言-动作(VLA)、世界模型、视频生成、逆动力学、视频-动作联合预测这五种具身智能范式统一起来,实现了“看-想-动”的完美闭环。 项目的主要负责人是来自清华大学计算机系朱军教授TSAIL实验室的…

    2026年2月6日
    52000
  • 文心5.0正式版发布:2.4万亿参数原生全模态架构,登顶LMArena的“最强文科生”技术解析

    2.4万亿参数,原生全模态架构,在文本榜上“霸榜如喝水”。 在文心Moment大会上,文心大模型5.0正式版 上线。该模型参数量达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。在40余项权威基准的综合评测中,文心5.0正式版的语言与多模态理解能力稳居国际第一梯队。其音频和视觉生成能力与垂直…

    2026年1月24日
    37400