马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

月初,OpenAI的两大对手Anthropic马斯克终于放下分歧,正式结盟。在此之前,双方关系紧张:今年2月,马斯克在X账号上指责Anthropic“觉醒”“邪恶”“反人类”,称其“仇视文明”。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

事后看,这次攻击并非马斯克个性使然,而是Anthropic的某些做法触及了他的底线。此前,xAI内部使用Cursor工作,但年初员工发现,Claude模型在xAI的Cursor企业账号中突然无法使用。当时仍在xAI的联合创始人吴宇怀在全员信中写道:“Anthropic更新了政策,要求Cursor不得向主要竞争对手提供Claude模型调用能力。”后来,xAI整个联创团队解散,实体与SpaceX合并,成为“SpaceXAI”。但当时,吴宇怀在信中写下了一句耐人寻味的话:“这是坏消息也是好消息。我们的生产力会受影响,但这也促使我们开发自己的编码产品和模型。”为何xAI高层认为自建编码产品至关重要?

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

后续发展众所周知:xAI联创团队全部离开,马斯克一怒之下对Cursor动用“钞能力”。上月底,SpaceX和Cursor共同宣布,将在编程和知识类AI模型训练上展开前所未有的战略合作;SpaceX还获得了以600亿美元收购Cursor的权利,或支付100亿美元合作费用。注意“编程”这个关键词,后面会再次提及。

最近,我观看了Cursor早期投资人、Anthropic批评者、T3创始人Theo Browne的一条视频。原以为他会抨击Anthropic和SpaceX的勾当,却意外发现了一个关于SpaceX+Cursor合作的另类但极合理的分析:不谈600亿收购,只说100亿合作费——Theo在视频中表示,他认为“哪怕只是交换到Cursor的用户数据,这100亿也值了”。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

那么,是什么数据?如果你也看了Theo的视频,他会讲得很清楚。但为了节省时间,我们简单概括:我们与AI的对话是交互式的——你提出问题/需求,它给出解答;coding agent同理,只是返回的是代码。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

一次高质量对话,包括用户提示、模型思考、agent规划、输出代码、验证——所有这些组合起来,形成一个完整的Agentic Loop——就成了高价值的训练数据,再喂给模型进行强化学习,就能提升模型在实战场景中的表现。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

Cursor拥有的,SpaceX想要的,正是这些数据。这些数据从何而来?答案很简单:作为模型厂商,这种高质量数据最直接的来源,只能是自己开发的coding agent产品——比如Anthropic的Claude Code、OpenAI的Codex、Kimi的Kimi Code。现在你明白了,为何被Anthropic“封号”后,吴宇怀会在全员信中提出开发xAI自己的coding产品和模型。xAI当时已看清:没有自己的编码产品,就没有高质量的强化学习数据;没有高质量数据,就训练不出真正实战能力强的coding模型。虽然有些极端,但我们可以点题:模型厂商要想做出真正能打的编程模型,自建coding agent产品是唯一路径。

大语言模型像水晶球,用全网语料训练,似乎能解答万物,但并非在所有问题上都能给出高质量答案。用GitHub上数十亿代码条目训练,当然也能训练出coding模型。这是“学习结果”的逻辑,也没问题——毕竟编码任务的结果可验证:代码能否运行、测试能否通过,结果摆在那里。但通往结果的过程,是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每次用户的接受、拒绝、补全、撤销、追问,甚至模型多次搞错时的辱骂——都是这一链条上的过程信号。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

强化学习有两种监督方式:结果监督,只关注最终是否跑通;但结果监督会催生“奖励黑客”现象——模型为跑通可能写出冗余、脆弱、有逻辑漏洞的代码,但因测试通过,模型误以为学对了。另一种是过程监督,对推理路径上的每一步打分。上述过程信号,只有在coding agent运行环境中才能产生。GitHub仓库只有结果,即使查看提交历史或PR,也找不到有效的过程信号。在缺乏有效、自主获取的过程信号时,一些模型厂商采用“蒸馏”方式,这大家应该已经知道。蒸馏的逻辑很简单:给定相同输入,老师模型输出什么,学生模型就学着输出什么。但通过蒸馏,即使能获取思维链,得到的更像结果,而非被蒸馏老师模型内部的概率分布。一旦学生在推理中偏离老师轨迹,哪怕一个token不符,都可能发生偏离。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前优化的模型自己生成。这种数据叫on-policy数据。而通过蒸馏别家模型、在别人产品中产生的数据来训练自己模型,都属于off-policy数据。模型当然能学到东西,但学不到老师模型内部的概率分布信息。而像Cursor这样本身就是coding agent产品的公司,掌握着最真实、有效、高质量的训练数据。Cursor产品本身,就是coding模型在实战环境中的最佳训练场。我们可以通过Cursor年初的“翻车”来证明这个逻辑。

APPSO读者应该记得,年初Cursor发布了Composer 2,号称“下一代专用编程模型”,技术报道相对保守,自称是新模型,未提供具体模型底座信息。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

结果很快,网友在公开代码片段中发现了Kimi的模型ID,截图传遍开发者社群,逼得Cursor副总裁Lee Robinson出面澄清:“Composer 2确实从开源底座出发。最终模型大约只有1/4的算力来自底座,剩下3/4是我们自己训练的。”几小时后,Cursor联创Aman Sanger也发了一条道歉:“一开始没提Kimi底座是个失误。”

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

五天后,Cursor放出完整Composer 2技术报告,显示底座是Kimi K2.5,授权方是Firworks AI,大致流程是在K2.5上训练,再继续大规模强化学习(RL)。但关键在于,Composer 2的RL运行在真实Cursor会话中,使用与生产部署完全相同的工具和harness。Cursor将这套流程称为“实时强化学习”(real-time RL),即将模型checkpoint直接部署到Cursor生产环境,观察用户响应,收集数据,聚合奖励信号,最快每5小时迭代一次模型版本,再部署到Cursor中,循环往复。最极致的案例是Cursor的自动化代码补全功能Tab,每天处理超过4亿次请求。每当用户输入字符、移动光标时,模型预测下一步动作;若预测置信度高,则显示建议;用户按下Tab即接受自动补全。该功能采用在线强化学习,在行业内极具特色。Cursor能以极高频率(最快每1.5到2小时)更新Tab模型能力给用户,直接在产品内收集on-policy数据进行训练。这种高频、近乎实时的反馈回路,让Tab能学习到极其微妙的用户意图。Cursor透露,这种方法使Tab建议的拒绝率降低21%,接受率提高28%。回到Composer模型本身。事情搞清楚后,一些Kimi员工删除了之前吐槽的推文,Kimi官方账号发表祝贺。一家估值600亿美元(基于马斯克给出的数字),不做自己模型基座的coding agent应用层公司,仍能通过产品自身的数据飞轮,RL出超越基座模型的专有编程模型。因此,与其说Cursor翻车,不如说这反而是coding agent产品重要性的绝佳例证。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

Cursor在另一篇关于实时RL的文章中写道:“(训练编程模型)最大的困难在于建模用户。Composer生产环境中不只有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,模拟使用它的人却很难。”这句话正逐渐成为编程模型前沿模型厂商之间的共识。如果你看benchmark榜单和用户普遍评价,会发现头部厂商都在发力做自己的coding agent/编程产品。区别只在于谁离用户更近。以SWE-bench、LLM-Stats等相对权威的榜单为例,Claude、GPT、Gemini、Kimi等模型基本霸榜前十,清一色是有自己开发coding agent产品(包括CLI、IDE、集成coding agent的桌面客户端)的模型厂商。部分榜单上会出现少数反例,如Meta(Muse Spark)、Minimax、DeepSeek等,没有开发自己的coding agent。但你会发现,这些反例模型在更接近真实场景、避免污染的权威benchmark上就很难上榜。以DeepSeek为例,它在SWE-bench bash only上分数为70%,排名第九;但在SWE-bench Pro上分数却掉到约15%。OpenRouter的真实流量数据可解释这种反差:该平台2025年报告显示,Claude token消费80%以上用于编程和技术任务,而DeepSeek token消费主要集中于闲聊和角色扮演。没有自家coding产品的厂商,在某些coding任务benchmark上能挤进头部,但在更难的真实工程benchmark上,在用户用token消费投票的真实流量中,都会原形毕露。不仅是Cursor,Anthropic在2025年11月发表的一篇论文中也明确透露自己在做一模一样的事情:“我们在Anthropic自家的真实生产编程环境上做训练。”即Anthropic将自己员工使用Claude Code的交互数据,反哺给Claude模型用于训练。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

在AI演进历程中,生产要素的定义发生了深刻位移。传统三大核心要素——算力、研究、训练数据,虽然总量持续增长,但结构上已出现严重失衡。今天各大AI巨头显著提高了算力资本支出(CapEx),使算力基建成为主旋律。但实际上,特别是在编程范畴内,随着GitHub仓库、StackOverflow等互联网公开代码数据被基模厂商“竭泽而渔”式利用,模型在代码生成与逻辑推理上的边界开始逐渐显现。这也是为什么,行业共识正逐渐转向一个冉冉升起的新战略高地:对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的coding agent产品早已不是可选的商业路线,而是确保底层模型持续进化的核心生命线。正如APPSO前面论证的那样,单纯学习公开数据等于只学习成功者的结局,却无法了解成功的路径,这绝非正确的成功学。在真实编程环境中,知道发生了什么错误、如何发生、如何正确理解和高效实践需求——了解正确过程的价值,远超得到正确结果本身。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

只有拥有自己的编码产品,模型厂商才能获取高质量的“过程监督”信号,从而在编码/推理能力的下一阶段竞争中,确保技术护城河——否则就不得不像SpaceXAI那样,花钱与coding agent产品公司合作。然而并非所有模型厂商都像马斯克那样有钱,2026年开始的巨头势力划分、结盟与领地争斗将更加激烈;当一家缺乏自主coding产品的模型厂商终于醒悟时,恐怕已没有足够合作伙伴可挑选,合作价格也将水涨船高。美国模型巨头的情况大家普遍熟悉,在此不赘述。APPSO也注意到,国内主流模型厂商和AI巨头中,绝大部分已在coding agent产品上有所布局。国内巨头公司主要以原生AI IDE或IDE插件思路推进:字节跳动去年很早布局了TRAE,阿里巴巴的Qoder,腾讯的CodeBuddy,百度的文心快码Comate等。AI小龙公司中,月之暗面是最早开发独立coding agent产品的公司,主要以CLI界面的Kimi Code为主——不过Kimi此前透露,在原生编程产品上,CLI不会是终局。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

另一种实现思路是模型厂商自行提供API服务、Coding Plan。这样,无论用户使用何种AI开发环境,模型厂商都能通过服务器端API记录获取最大程度接近原生coding产品的过程数据。但这只是接近,并非完全相同。核心在于,服务器端API的请求-响应日志,与深度继承的产品交互轨迹相比仍有很大差距。自建产品的厂商(如Cursor、Claude桌面端、Codex)拥有最直接的显式反馈信号,而API侧是相对模糊的隐式推断。简单来说,API侧能看到用户请求和响应,但用户最终是否采纳这段代码、代码能否跑通、引发何种bug,API侧对此一无所知。他们无法了解用户最终行为这一关键标签,从而无法实现最高质量的强化学习。形而上来讲,语言即世界,代码即方案。代码能表达世界上绝大多数任务,代码也会成为头部的放大器,让最顶尖的人才放大数倍生产力。只有最顶尖的coding模型才配得上最顶尖的人才。如果领先的模型厂商不重视coding,势必会掉出第一梯队。当然,事实上每家模型厂商都不会不重视coding——而是说,在新的范式下,那些没有自主可控的原生coding agent产品的厂商,极有可能逐渐落后于有产品的厂商。就在前几天,MiniMax也发布了桌面客户端产品的重大更新:带有全新多agent编排架构的Mavis功能,并让客户端显著改善了对coding任务的支持。此前MiniMax只推出了桌面端,但未加入原生coding和agent功能。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

紧接着,5月15日,阿里巴巴正式发布了Qoder 1.0——这个产品从IDE形态正式升级为完整Agent产品(阿里官方叫法为智能体自主开发工作台)。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

与此同时,xAI的Grok Build CLI也终于正式推出。没错,就是xAI年初被Anthropic和Cursor封号后,自己捣鼓出来的coding agent。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

这不,又多了好几个现成案例。看来,大家都认为Cursor、Codex和Claude桌面端走在正确道路上。

把话题从coding扩展到agent本身,情况也一样。编码任务的轨迹数据在公开语料中还能找到一些(比如GitHub提交记录/PR,尽管质量不高)。但agent任务的轨迹数据,包括移动和点击鼠标、操控触屏、填写输入框等,无法在公开语料中找到。所以我们会看到,即使在agent操作的最小实现路径——浏览器插件上,即便这么个看起来不高端的东西,几乎每家模型厂商都会做自己的。OpenAI早在2025年1月就做了Operator——与其说它是“AI自动操作浏览器”的产品,不如说本质上是一个大规模数据收集装置。每位试用Operator的用户,都在免费为OpenAI提供on-policy数据。后续OpenAI还衍生出ChatGPT Agent以及新版Codex桌面端;Anthropic也是如此;最近Kimi不声不响地也做了一个叫WebBridge的项目,其实就是浏览器插件。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

即便是在过去两年里动作最克制的中国模型巨头深度求索,最近也开始展露对Agent的兴趣。CEO梁文锋此前接受采访时曾提到:数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。这句话的潜台词是,DeepSeek一直把coding、Agent当研究试验场,而非商业化方向。但在今年3月,DeepSeek一次性放出了十几个Agent相关岗位,包括首次出现的模型策略产品经理(Agent方向)等。当时的JD职责涵盖“主导Agent评测体系以及训练数据方案的设计”,要求包括“深度使用Claude Code、Manus”等产品。APPSO注意到,近期深度求索发布了Agent产品经理、Harness产品经理等职位招聘信息——显然,DeepSeek要做独立、原生的Coding/Agent产品了。

马斯克砸100亿买数据:AI编程模型竞争的关键,为何必须自建编码产品?

此前资料显示,DeepSeek V3.2的训练过程中引入了近两千个合成的Agent训练环境和八万多条复杂指令。但看来,靠合成训练数据只能带DeepSeek走到这里,剩下的是合成不出来的部分:真实用户在真实环境中的真实成功和失败,必须靠自家agent产品才能拿到。DeepSeek以极度克制的方式做了三年模型及模型产品(直到上个月才终于在官网加入了多模态能力)。但今天来看,在编码类任务上,DeepSeek拿SOTA越来越难了,即便此前拿到也会很快被超越。当助理依靠研究的路径支撑不住飞轮时,DeepSeek终于行动了。

最后,我们回到开篇故事。据The Information援引知情人士报道,在接受马斯克600亿收购/100亿美元合作的同时,Cursor表示不会与xAI合作开发新模型,而是仍聚焦于优化自己的Composer模型。这意味着,即便被马斯克买通甚至收购,Cursor仍要保留自己数据飞轮的主体性。数据归属本身,是最关键的隐藏博弈点。当所有顶级模型厂商都做了自己的产品,所有顶级产品也开始训练自己的模型,“模型公司”和“产品公司”本就模糊的界限似乎越来越不存在了……这场博弈也才刚刚开始。

参考资料:
Theo – t3.gg: www.youtube.com/watch?v=3pkz-Ie_k_c
Composer 2 技术报告:cursor.com/cn/blog/composer-2-technical-report
Anthropic 论文:arxiv.org/abs/2511.18397
结果监督 vs 过程监督:www.emergentmind.com/topics/process-vs-outcome-supervision
强化学习的信号误差:https://openreview.net/pdf?id=TDfrN1TbGH
关于自建或购买过程数据的讨论:https://www.reddit.com/r/AI_Agents/comments/1snc116/the_overlooked_trend_of_building_custom_ai_agents/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35238

(0)
上一篇 14小时前
下一篇 54分钟前

相关推荐

  • AI 3D生成杀入3D打印圈!胡渊鸣的Meshy发布创意工坊,一键生成3D模型还能直接打印

    潮水转向,从一场展会开始 全球3D打印行业的风向标TCT Asia展会,一个月前在上海举行。一个展台被围得水泄不通,成为全场焦点。 主角并非某家3D打印机厂商,而是Meshy——由计算机图形学大神胡渊鸣创立的AI 3D公司。 围观者里三层外三层,目的只有一个:亲眼见证用AI生成3D模型后直接打印出来的成品,究竟有多惊艳。 例如这些具有釉面质感的“文博陶瓷”,…

    2026年4月27日
    1.1K00
  • 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

    GLM-OCR 模型评测:0.9B 参数下的文本识别与表格解析实战 OCR(光学字符识别)技术正持续演进。近期,智谱 AI 开源了其轻量级模型「GLM-OCR」,尽管参数量仅为 0.9B,但据称在 OmniDocBench V1.5 等基准测试中表现不俗,尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。 官方数据显示,该模型在多类文档的识别任…

    2026年2月11日
    1.2K00
  • 突破PEFT合并瓶颈:方向鲁棒性理论揭示与RobustMerge方案解析

    在人工智能技术快速演进的浪潮中,多模态大模型已成为推动产业进步的核心引擎。然而,随着模型参数规模呈指数级增长,全量微调(Full Fine-Tuning, FFT)所需的海量计算资源已成为制约技术民主化的重要瓶颈。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,特别是LoRA(Low-Rank Adaptati…

    2025年11月10日
    38100
  • 开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

    上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛(IPhO)中首次达到金牌分数线,并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions,标志着开源模型在复杂物理推理能力上实现重要突破。

    2025年10月25日
    56600
  • 阿里Qwen3-TTS深度解析:多语言方言语音合成的技术突破与产业影响

    近日,阿里巴巴继开源Z-Image模型后,正式发布了Qwen3-TTS语音合成模型(版本号2025-11-27),标志着其在多模态AI领域的技术布局进一步深化。该模型不仅解决了语音合成领域的多个核心痛点,更在多语言支持、方言适配、音色丰富度等方面实现了显著突破,为全球语音技术应用带来了新的可能性。 从技术架构层面分析,Qwen3-TTS的核心创新体现在三个维…

    2025年12月6日
    44800