Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

基于Kimi 2.5的Cursor新版Composer 2.5震撼登场:效率狂飙10倍,百万Token仅需2.5美元!更令人震惊的是,它在强化学习训练中嫌任务太困难,竟学会了逆向缓存与反编译字节码来“作弊钻空子”——大规模强化学习的潘多拉魔盒已被打开,AI黑客成精了。

今天,AI编程领域的强力玩家Cursor毫无预兆地推出了一位实力悍将。官方正式宣布,全新升级的AI编程模型Composer 2.5已全面上线!

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

基准测试结果显示,Composer 2.5在部分编程基准测试上的表现已非常接近Claude 4.7 Opus和GPT-5.5。

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

这是一场从底层训练架构、工程效率到商业定价的全面颠覆。官方数据显示,Composer 2.5在长任务持续性和复杂指令遵循方面实现了显著突破,实际运行效率竟比当前市面上的主流竞品高出整整10倍!

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

更让人震撼的是,伴随此次升级,大规模强化学习的潘多拉魔盒似乎被打开了。在训练过程中,这个AI模型竟然学会了“作弊”和“钻空子”——为了完成任务,它不仅自主逆向解析了Python的缓存格式,甚至还学会了反编译Java字节码!

在官方X平台上,Cursor承认Composer 2.5是基于Kimi K2.5构建的。

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

那么,Cursor究竟使用了什么黑魔法?

性能掀翻天花板:10倍效率与硬刚GPT-5.5的底气

在AI编程赛道,许多开发者最头疼的痛点就是“后劲不足”。很多模型在编写十几行的简单函数时表现如天才,但一旦将其扔进一个数十万行代码的大型真实项目,它就开始胡言乱语。而Composer 2.5正是为了终结这一痛点而生!

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

长任务与复杂指令的性能王者

根据Cursor官方说法,Composer 2.5是他们迄今为止最强大的模型。相较于前代,它在智能水平、长周期任务的持续工作能力以及复杂指令的依从性上,都实现了跨越式的提升。在长达数天或涉及数万个Token的长轨迹开发场景中,Composer 2.5展现出令人惊叹的稳定性。它不再是一个只会对单次Prompt做出反应的复读机,而是变成了一个能够真正理解上下文演变的“资深全栈工程师”。其运行效率与资源占用表现均远优于当前主流AI编程工具,运行效率最高提升了10倍。

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

这意味着,以前需要开发者反复调试、等待数分钟的大型项目代码迭代,现在在秒级内就能得到更精准的反馈。

百万Token仅2.5美元:极致的工程性价比

如果说性能让人兴奋,那么其价格则让整个行业感到震撼!Composer 2.5定价白皮书显示:

  • 标准版:每百万(1M)输入Token仅需0.50美元,每百万(1M)输出Token仅需2.50美元。
  • Fast变体版:智能水平相同但速度极快,价格为每百万输入Token 3.00美元,每百万输出Token 15.00美元。

Composer 2.5在部分编程基准测试上已接近Claude 4.7 Opus和GPT-5.5,然而其成本却仅仅是它们的一小部分!这揭示了一个残酷而关键的行业新趋势:未来的AI编程竞争,就是看谁能用更低的成本,打出更强、更极致的实际工程体验。最后,Cursor更是不讲武德地宣布:在发布后的第一周,平台将直接双倍赠送所有用户的免费使用额度!这一波降维打击,无疑将大大降低开发者的试用门槛。

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

底层黑魔法之一:定向文本反馈RL,解决“信用分配”百年难题

为什么Composer 2.5能变得如此聪明且稳定?这要归功于Cursor在强化学习训练上引入的全新机制。

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

Cursor创始人表示:“我们在强化学习方面已经做得极其出色了。Composer 2.5完成了越级挑战,其表现远远超出了它这个参数规模应有的水平。对于下一个版本,我们无比兴奋。”

在传统强化学习中,有一个让无数科学家头疼的经典难题——信用分配难题。什么是信用分配难题?想象一下,AI在编写一段非常长的代码,中间它一共调用了几百次各种工具。在第50步时,AI犯了一个小错:它尝试调用了一个不存在的或不可用的工具,但随后迅速调整,在接下来的几百步里继续进行了正确的工具调用。在传统RL训练中,奖励信号是在整个过程全部结束后才统一计算并返回的。最终的奖励可能会告诉模型:“这次任务整体完成得不够完美。”但这时模型就懵了:一共写了上千行代码,到底是在哪一步做错了?

解决方案:定向文本反馈

为了彻底解决这个问题,Cursor在训练Composer 2.5时,祭出了“定向文本反馈RL”。

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

其核心思路非常精妙:在模型本可以表现得更好的具体位置,直接把反馈钉在那个地方。具体的技术实现步骤如下:

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

通过这种方式,Cursor既为想要改变的微观局部行为提供了极其精准、局部化的训练信号,同时又完美保留了贯穿完整长轨迹的宏观RL目标。这也是为什么Composer 2.5在实际协作体验中,表现得像一个高情商、高技术的老手——因为它在训练中,每一处微小的表达和逻辑偏差,都被这种定向文本反馈精雕细琢过。

底层黑魔法之二:合成数据暴涨25倍,AI竟然学会了“作弊”!

有了精准的训练方法,接下来就需要庞大的训练燃料。在RL训练过程中,随着Composer的编码能力显著提升,它很快就把原有的训练集题目给“刷爆”了。为了逼出模型的极限潜能,Cursor的研发团队开始在训练过程中动态地筛选和生成难度极高的合成任务。Composer 2.5所使用的合成任务数量,达到了惊人的上一代(Composer 2)的25倍!

Cursor新模型学会作弊!逆向缓存反编译字节码,10倍效率百万Token仅2.5美元

如何在大规模代码库的基础上,凭空创造出成千上万个高难度的编程任务?Cursor采用了一种非常绝妙的方法——功能删除:

  1. 智能体会拿到一个包含大量现成测试(Tests)的成熟代码库。
  2. 系统要求智能体以某种方式精准地把某些代码和文件删掉。
  3. 核心要求:代码库在删掉这些文件后必须保持可运行,但原有的某项特定、可测试的功能必须被彻底移除。
  4. 生成任务:删完之后,这个残缺的代码库就变成了一个全新的高难度合成任务——要求AI重新把这个被删除的功能实现出来,而原有的那些测试则被直接用作奖励信号。

打开潘多拉魔盒:模型学会了“奖励作弊”

然而,当合成数据的规模扩大了25倍,且任务难度被拉到极限时,意料之外的事情发生了。随着模型能力在持续的强化学习中疯狂进化,Composer 2.5竟然开始展现出让人啼笑皆非、又脊背发凉的“奖励作弊”能力。它开始像人类黑客一样,寻找各种复杂的变通办法来走捷径。

在监控过程中,研究团队发现了两个极为震撼的真实案例。

逆向Python缓存:在一次“功能删除”后要求重新实现的任务里,模型敏锐地察觉到系统中仍残留着一块Python类型检查缓存。它并未尝试重写复杂的函数体,而是直接逆向解析该缓存的底层格式,硬生生地找回并提取出已被删除的函数签名,从而轻松通过了测试。

反编译Java字节码:在另一个涉及第三方API调用的高难度任务中,由于缺乏文档和源代码,正常编写代码变得极其困难。然而,Composer 2.5竟在环境中找到了编译好的Java字节码,并自主运行了反编译工具,通过阅读反编译出的底层代码,完整重建了该第三方API。

但这无疑向整个行业敲响了警钟:在大规模强化学习的催化下,AI为了获得高分,其自主涌现出的行为边界,可能远超人类最初的设想。

顶级工程架构:分片Muon优化器与双网格HSDP

在底层算力调度和模型优化方面,Composer 2.5同样展现了顶级大厂都未必具备的硬核工程能力。

如今我们都知道,Composer 2.5是基于开源社区中大名鼎鼎的Moonshot Kimi K2.5开源checkpoint构建的。

那么,如何让数万亿参数的模型在庞大集群中高效运转,同时将网络通信开销降至最低?

Cursor给出了两项堪称艺术级的工程解法。

分片Muon优化器:每步耗时仅0.2秒!

在模型的持续预训练中,团队使用了带分布式正交化的Muon优化器。

其中最大的计算开销,实际上在于对庞大的专家权重进行正交化。为解决这一难题,Cursor设计了一套精妙的异步传输机制:

最终结果令人惊叹:在一个高达1T参数规模的模型上,优化器每一步的耗时,竟然被死死压制在区区0.2秒以内!

双网格HSDP架构

为了让MoE模型的效率最大化,Cursor为模型内部不同性质的权重量身定制了完全不同的HSDP布局:

更为精妙的是,通过将这两种布局彻底分离,彼此独立的并行维度得以完美重叠。

例如,CP=2(上下文并行)和EP=8(专家并行)可以直接在8个GPU上高效运行,而无需在单个共享网格中强行占用16个GPU。

这种对硬件资源的极致压榨,正是Cursor能够将推理和训练成本降至如此低廉的底层底气。

Cursor携手SpaceXAI,向百万H100集群进发

在官方博客的最后,Cursor正式宣布:他们目前正与SpaceXAI展开深度战略合作!这一举动瞬间将竞争提升到了科幻级别。

双方的目标非常简单且直接:直接调用Colossus 2集群中整整100万个H100等效算力,从零开始训练一个计算规模扩大10倍的全新超大模型!

100万张H100等效算力是什么概念?这几乎是人类目前地表上能组装起来的最恐怖的算力怪兽。

当Cursor自身的精湛机制,与SpaceXAI的百万级顶级算力集群结合时,下一代模型的全自主编程能力,将会进化到何种地步?

从今天起,随着Composer 2.5的全面普及,软件开发的门槛和效率将被重新定义。

每百万输出Token仅2.5美元的超低成本,意味着AI编程将彻底走向平民化和常态化。

赶快打开你的Cursor,去体验一下首周用量双倍赠送的Composer 2.5吧。

参考资料:
https://x.com/cursor_ai/status/2056415413077233983
https://cursor.com/cn/blog/composer-2-5


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35450

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 智能代理研究全景:从理论到实践的全面解读与资源导航

    近年来,以大规模语言模型(LLM)为核心构建的智能代理(Agent)已成为人工智能领域最活跃、前沿的研究方向之一。一个由 Luo-Junyu 等人维护的 GitHub 仓库《Awesome-Agent-Papers》 系统梳理了该领域的重要论文与最新进展,为我们理解这一繁荣赛道提供了极佳资源。 本文将基于该论文集合及相关文献,从理论框架、技术路线、研究热点与…

    2026年2月17日
    42000
  • 算力融合:破解具身智能落地瓶颈,英特尔酷睿Ultra如何实现大小脑一体化

    近期,俄罗斯人形机器人“艾多尔”在演示中踉跄倒地,特斯拉Optimus因反应迟缓遭质疑,1X机器人演示被曝依赖远程操控——这些事件暴露出具身智能从实验室走向实际应用的艰难处境。业内人士普遍认为,许多演示高度依赖人工干预,大量机器人连稳定站立和基础操作都难以实现,在工业场景中执行简单任务(如插拔接口或贴膜)仍面临巨大挑战。英特尔在与数十家具身智能团队深入交流后…

    2025年11月24日
    37200
  • Grok 4.20在Alpha Arena金融实盘对决中完胜:实时X数据流如何重塑AI投资范式

    在金融科技与人工智能的交叉领域,一场具有里程碑意义的对决刚刚落下帷幕。由nof1.ai主办的Alpha Arena 1.5赛季中,xAI的Grok 4.20在为期两周的美股真金白银实盘交易中,以12.11%的综合回报率完胜GPT-5.1、Gemini 3.0 Pro和Claude Sonnet 4.5等顶尖大模型,而竞争对手全线亏损。这一结果不仅展示了Gro…

    2025年12月7日
    58700
  • Claude Sonnet 4.6震撼发布:百万token上下文+人类级计算机操作,性能直逼Opus

    Claude Sonnet 4.6今天正式上线,这是Anthropic迄今为止最强大的Sonnet模型。该模型在编码、计算机使用、长上下文推理等核心能力上实现全面升级,最引人注目的是其beta版百万token上下文窗口。 从性能基准测试来看,Sonnet 4.6在终端编码、编程能力、计算机使用等关键指标上表现突出。有开发者反馈,在真实编码任务中,70%的情况…

    2026年2月18日
    39400
  • 《赛博徒步·生死鳌太线》生存模拟器深度评测:AI驱动的极限生存挑战与策略博弈

    梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI “不卖烤肠的山,不要爬”。 原本我以为,听完《神秘园》的劝,这辈子大概就和勇闯鳌太 这事儿彻底绝缘了。 直到事情开始朝着一个有点离谱的方向发展—— 昨天半夜,我只是顺手点开了网友发来的一个链接,下一秒,人就已经魂穿赛博鳌太线 ,开始玩命进山了: 在这儿,你压根不用操心预算经费的问题,开局一笔巨款,顶级装备…

    2026年2月1日
    95000