卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

鹭羽 发自 凹非寺

2025年有哪些AI趋势?大神卡帕西的年终总结正在硅谷引发热议。

他提出了六大硬核且富有启发性的论断:

  • RLVR (可验证奖励强化学习) 成为训练新阶段
  • 大模型不应被类比为动物智能
  • Cursor展现了大模型应用的Next Level
  • Claude Code加速端侧智能体普及
  • Vibe Coding将重塑软件行业
  • Nano Banana重塑人机交互

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

新范式、新应用、新模型……过去一年大模型带来的变革令人兴奋。然而卡帕西大胆预言:

大模型的潜力,才刚刚挖掘10%。

一切不过是刚刚开始……

2025 LLM年度回顾

为什么卡帕西认为大模型潜力只挖掘了10%?

大模型一方面展现出强大的推理能力,另一方面也暴露出潜在的理解缺陷,这种矛盾状态既让人兴奋又需保持谨慎。具体分析如下:

RLVR成为训练新阶段

在2025年之前,主流大模型基本遵循以下训练范式:

  • 预训练:代表模型是GPT-2和GPT-3;
  • SFT (监督微调):以2022年发布的InstructGPT为标志;
  • RLHF (人类反馈强化学习):自2022年开始广泛流行。

而到了2025年,RLVR开始加入这一流程。模型通过在可自动验证的奖励环境中进行强化学习训练,会自发形成推理策略,例如将问题分解为中间计算、循环计算等,具体可参考DeepSeek R1

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

这些策略在旧范式中极难实现,因为大模型的最佳推理轨迹和恢复过程并不清晰。此外,与SFT和RLHF不同,RLVR涉及客观奖励函数的训练,优化时间较长。但事实证明,RLVR能够带来较高的“能力/成本”比,它消耗了原先用于预训练的计算资源。

因此,RLVR成为2025年大模型能力增长的重要驱动因素。在模型规模相当的前提下,强化学习的运行时间被大幅延长。随之而来的,还有全新的调控手段和相关的Scaling Law,可以通过生成更长的推理轨迹和增加思考时间,来控制能力作为测试时间计算量的函数。

2024年末的o1模型是首个RLVR模型的展示,但2025年初o3的发布才是明显的拐点

大模型不应被类比为动物智能

2025年,行业开始直观地理解大模型智能的独特形态——它并非动物进化,而更像是在“召唤幽灵”。

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

由于大模型技术栈的方方面面(神经架构、训练数据、训练算法,尤其是优化压力)都与生物智能不同,导致智能实体之间存在巨大差异。 用看待动物的视角来理解它们并不恰当。

从监督层面看,人类的神经网络为生存而优化,而大模型的神经网络则是为了模仿人类、获得奖励而优化。随着可验证领域采用RLVR,大模型性能会快速爆发,并整体呈现出锯齿状性能特征,即“锯齿智能”。

简单来说,这样的大模型既是通才,也是认知能力有限的小学生,随时可能被越狱攻击,导致数据泄漏。

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

这也解释了为什么卡帕西对基准测试普遍信任不足。核心问题在于,基准测试几乎在构建之初就是可验证的环境,因此极易受到RLVR以及合成数据的影响。研发团队会不可避免地围绕基准测试构建环境,形成锯齿状的模型表现,本质上是在测试集上进行训练。

这就能解释,为何当前大模型可以在所有基准测试中取得压倒性胜利,却仍未实现AGI。

Cursor展现了大模型应用的Next Level

值得关注的是,Cursor的出现揭示了大模型应用的一个新层面,也就是今年常说的 “Cursor for X”

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

它不仅仅是一个模型接口,而是围绕模型调用构建的应用层,能够:

  • 进行上下文工程;
  • 协调多个模型调用,组成复杂的DAG(有向无环图),并精心权衡性能与成本;
  • 提供特定应用的GUI;
  • 带有自主性滑块。

2025年,业界集中讨论了一个问题:新的AI应用层到底会有多“厚”?这一层的价值是会被底层模型实验室完全榨干,还是会给垂直领域的应用开发者留下生存空间?

对此,卡帕西预测,大模型实验室未来会趋向于培养出“能力全面的大学毕业生”。而大模型应用开发者则会负责组织、微调,并让一整支这样的“学生团队”真正运作起来,通过引入私有数据、传感器、执行器以及反馈闭环,成为特定行业里可部署、可交付成果的专业人才。

Claude Code加速端侧智能体普及

Claude Code是首个令人信服的大模型智能体范例。它采用循环方式将工具使用与推理结合,以解决复杂问题。它能在个人电脑上运行,并充分利用用户的私有环境、数据和上下文。

与之相反,OpenAI将过多精力集中在由ChatGPT编排的云部署容器上,而非端侧部署。虽然云端运行的智能体集群常被视为AGI的终极形态,但当前大模型能力参差不齐,整体发展处于缓慢的过渡阶段。

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

在此现实下,CC让智能体直接在本地电脑上运行,无缝适配开发者工作流程,更贴合实际需求。可以说,CC正确把握了这一优先级,并将其包装成美观简约的命令行界面,彻底改变了人们对AI的传统认知。它让AI不再是需要访问的网站,而是像栖息在个人电脑中的助手,创造了一种全新的互动模式。

Vibe Coding将重塑软件行业

2025年也是AI跨越能力门槛的一年,仅通过自然语言就能构建各种程序

有趣的是,“氛围编程”和前面提及的“锯齿智能”均由卡帕西命名,而他当时并未料到这两个词会成为2025年AI发展的最佳注解。

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

在氛围编程的帮助下,编程不再局限于专业人士,任何人都能参与其中,而专业开发者也能借此创造出更多有趣的软件。例如,在卡帕西自己的nanochat项目中,他就用氛围编程的方式,在Rust语言中编写了定制的高效BPE分词器,而无需采用现有库或深入学习更多Rust知识。

他认为,氛围编程将重塑软件行业,并改变现有的工作内容。

Nano Banana重塑人机交互

要说今年最令人惊讶、最具范式转移意义的模型之一,当属谷歌的Gemini Nano Banana。

卡帕西2025大模型预言:RLVR革命、锯齿智能与端侧智能体崛起

在卡帕西看来,大模型是继计算机时代后的下一个主要计算范式,两者在许多层面存在相似性,尤其是在用户界面和用户体验方面。因为人们喜欢以视觉和空间的方式获取信息,所以大模型也应该提供类似格式,对文本进行美化和视觉排版。

Nano Banana展现了这一趋势。它并非只关注图像生成,而是将文本生成、图像生成和世界知识融合在一起,为未来大模型GUI的发展提供了参考。

参考链接:
[1]https://karpathy.bearblog.dev/year-in-review-2025/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14034

(0)
上一篇 2025年12月20日 上午10:28
下一篇 2025年12月20日 下午12:18

相关推荐

  • AI浏览器革命:从工具到智能中枢的范式转移

    随着互联网进入AI时代,浏览器作为数字世界的核心入口,正经历着从被动工具到主动智能中枢的深刻变革。Market.us数据显示,全球AI浏览器市场规模预计从2024年的45亿美元增长至2034年的768亿美元,年复合增长率高达32.8%。这一数据背后,反映的不仅是市场规模的扩张,更是浏览器功能定位的根本性重构。 当前全球浏览器市场呈现出明显的“新旧秩序”更替特…

    2025年12月1日
    8000
  • 腾讯青云奖学金首秀:姚顺雨亲颁百万奖金,揭秘AI人才培养新战略

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 来围观腾讯青云奖学金颁奖,竟然偶遇了姚顺雨。 这位27岁的腾讯首席AI科学家,在腾讯大楼的线下公开亮相,不是发布重磅产品,也不是解读战略布局——而是给一群青年研究者颁发青云奖学金。 上一次他在公开场合露面还是在AGI-Next前沿峰会上。这波在腾讯的首秀确实“不按常理出牌”。 为更值得的探索 青云奖学金是…

    4天前
    2000
  • Lumina-DiMOO:离散扩散架构重塑多模态统一模型,开启原生智能新纪元

    上海人工智能实验室近期推出的Lumina-DiMOO,标志着多模态人工智能领域迎来了一次架构层面的根本性变革。这款基于离散扩散建模(Discrete Diffusion Modeling)的扩散语言模型,首次在同一框架内实现了文本→图像、图像→图像、图像→文本的全栈能力闭环,打破了传统多模态任务间的技术壁垒。 **论文信息** 论文标题:Lumina-DiM…

    2025年11月16日
    8400
  • ICLR 2026数据泄露事件深度剖析:从API漏洞到AI生成审稿的学术信任危机

    2025年11月27日,全球AI学术圈经历了一场前所未有的信任危机。国际学习表征会议(ICLR)2026的评审系统因OpenReview平台的一个API漏洞,导致超过1万篇投稿论文的评审信息在61分钟内大规模泄露。这一事件不仅暴露了学术评审系统的安全脆弱性,更引发了关于同行评审制度有效性和AI在学术评价中角色的深刻反思。 技术层面的漏洞分析显示,问题根源在于…

    2025年12月4日
    9100
  • 揭秘宇树人形机器人5500台全球销量背后的真实买家画像与产业拐点

    近日,2026年春晚再次引入宇树科技作为机器人合作伙伴。在2025年春晚上,其人形机器人曾成为全民话题,在高密度灯光与音乐节奏中自主完成整齐划一的行走、转身与协同动作。而对于产业来说,真正值得被记住的,并不只是舞台上的几分钟。 就在几天前,宇树科技对外披露了一组此前从未公开过的数据:2025年,宇树全年机器人实际出货量超过5500台,且全部为真实销售并完成交…

    6天前
    3800