卡帕西2025大模型预言：RLVR革命、锯齿智能与端侧智能体崛起

鹭羽发自凹非寺

2025年有哪些AI趋势？大神卡帕西的年终总结正在硅谷引发热议。

他提出了六大硬核且富有启发性的论断：

RLVR （可验证奖励强化学习） 成为训练新阶段
大模型不应被类比为动物智能
Cursor展现了大模型应用的Next Level
Claude Code加速端侧智能体普及
Vibe Coding将重塑软件行业
Nano Banana重塑人机交互

新范式、新应用、新模型……过去一年大模型带来的变革令人兴奋。然而卡帕西大胆预言：

大模型的潜力，才刚刚挖掘10%。

一切不过是刚刚开始……

2025 LLM年度回顾

为什么卡帕西认为大模型潜力只挖掘了10%？

大模型一方面展现出强大的推理能力，另一方面也暴露出潜在的理解缺陷，这种矛盾状态既让人兴奋又需保持谨慎。具体分析如下：

RLVR成为训练新阶段

在2025年之前，主流大模型基本遵循以下训练范式：

预训练：代表模型是GPT-2和GPT-3；
SFT （监督微调）：以2022年发布的InstructGPT为标志；
RLHF （人类反馈强化学习）：自2022年开始广泛流行。

而到了2025年，RLVR开始加入这一流程。模型通过在可自动验证的奖励环境中进行强化学习训练，会自发形成推理策略，例如将问题分解为中间计算、循环计算等，具体可参考DeepSeek R1。

这些策略在旧范式中极难实现，因为大模型的最佳推理轨迹和恢复过程并不清晰。此外，与SFT和RLHF不同，RLVR涉及客观奖励函数的训练，优化时间较长。但事实证明，RLVR能够带来较高的“能力/成本”比，它消耗了原先用于预训练的计算资源。

因此，RLVR成为2025年大模型能力增长的重要驱动因素。在模型规模相当的前提下，强化学习的运行时间被大幅延长。随之而来的，还有全新的调控手段和相关的Scaling Law，可以通过生成更长的推理轨迹和增加思考时间，来控制能力作为测试时间计算量的函数。

2024年末的o1模型是首个RLVR模型的展示，但2025年初o3的发布才是明显的拐点。

大模型不应被类比为动物智能

2025年，行业开始直观地理解大模型智能的独特形态——它并非动物进化，而更像是在“召唤幽灵”。

由于大模型技术栈的方方面面（神经架构、训练数据、训练算法，尤其是优化压力）都与生物智能不同，导致智能实体之间存在巨大差异。 用看待动物的视角来理解它们并不恰当。

从监督层面看，人类的神经网络为生存而优化，而大模型的神经网络则是为了模仿人类、获得奖励而优化。随着可验证领域采用RLVR，大模型性能会快速爆发，并整体呈现出锯齿状性能特征，即“锯齿智能”。

简单来说，这样的大模型既是通才，也是认知能力有限的小学生，随时可能被越狱攻击，导致数据泄漏。

这也解释了为什么卡帕西对基准测试普遍信任不足。核心问题在于，基准测试几乎在构建之初就是可验证的环境，因此极易受到RLVR以及合成数据的影响。研发团队会不可避免地围绕基准测试构建环境，形成锯齿状的模型表现，本质上是在测试集上进行训练。

这就能解释，为何当前大模型可以在所有基准测试中取得压倒性胜利，却仍未实现AGI。

Cursor展现了大模型应用的Next Level

值得关注的是，Cursor的出现揭示了大模型应用的一个新层面，也就是今年常说的 “Cursor for X”。

它不仅仅是一个模型接口，而是围绕模型调用构建的应用层，能够：

进行上下文工程；
协调多个模型调用，组成复杂的DAG（有向无环图），并精心权衡性能与成本；
提供特定应用的GUI；
带有自主性滑块。

2025年，业界集中讨论了一个问题：新的AI应用层到底会有多“厚”？这一层的价值是会被底层模型实验室完全榨干，还是会给垂直领域的应用开发者留下生存空间？

对此，卡帕西预测，大模型实验室未来会趋向于培养出“能力全面的大学毕业生”。而大模型应用开发者则会负责组织、微调，并让一整支这样的“学生团队”真正运作起来，通过引入私有数据、传感器、执行器以及反馈闭环，成为特定行业里可部署、可交付成果的专业人才。

Claude Code加速端侧智能体普及

Claude Code是首个令人信服的大模型智能体范例。它采用循环方式将工具使用与推理结合，以解决复杂问题。它能在个人电脑上运行，并充分利用用户的私有环境、数据和上下文。

与之相反，OpenAI将过多精力集中在由ChatGPT编排的云部署容器上，而非端侧部署。虽然云端运行的智能体集群常被视为AGI的终极形态，但当前大模型能力参差不齐，整体发展处于缓慢的过渡阶段。

在此现实下，CC让智能体直接在本地电脑上运行，无缝适配开发者工作流程，更贴合实际需求。可以说，CC正确把握了这一优先级，并将其包装成美观简约的命令行界面，彻底改变了人们对AI的传统认知。它让AI不再是需要访问的网站，而是像栖息在个人电脑中的助手，创造了一种全新的互动模式。

Vibe Coding将重塑软件行业

2025年也是AI跨越能力门槛的一年，仅通过自然语言就能构建各种程序。

有趣的是，“氛围编程”和前面提及的“锯齿智能”均由卡帕西命名，而他当时并未料到这两个词会成为2025年AI发展的最佳注解。

在氛围编程的帮助下，编程不再局限于专业人士，任何人都能参与其中，而专业开发者也能借此创造出更多有趣的软件。例如，在卡帕西自己的nanochat项目中，他就用氛围编程的方式，在Rust语言中编写了定制的高效BPE分词器，而无需采用现有库或深入学习更多Rust知识。

他认为，氛围编程将重塑软件行业，并改变现有的工作内容。

Nano Banana重塑人机交互

要说今年最令人惊讶、最具范式转移意义的模型之一，当属谷歌的Gemini Nano Banana。

在卡帕西看来，大模型是继计算机时代后的下一个主要计算范式，两者在许多层面存在相似性，尤其是在用户界面和用户体验方面。因为人们喜欢以视觉和空间的方式获取信息，所以大模型也应该提供类似格式，对文本进行美化和视觉排版。

Nano Banana展现了这一趋势。它并非只关注图像生成，而是将文本生成、图像生成和世界知识融合在一起，为未来大模型GUI的发展提供了参考。

参考链接：
[1]https://karpathy.bearblog.dev/year-in-review-2025/

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/14034

卡帕西2025大模型预言：RLVR革命、锯齿智能与端侧智能体崛起

鹭羽 发自 凹非寺

2025 LLM年度回顾

RLVR成为训练新阶段

大模型不应被类比为动物智能

Cursor展现了大模型应用的Next Level

Claude Code加速端侧智能体普及

Vibe Coding将重塑软件行业

Nano Banana重塑人机交互

相关推荐

OpenAI推出首款ChatGPT浏览器，即刻免费体验！

REAP框架：稀疏混合专家模型的动态瘦身革命与性能平衡的艺术

xAI估值飙升背后：大模型竞赛进入资本驱动新阶段

OpenHands V1架构重构：构建可组合、可扩展的生产级智能体SDK

FGN技术革命：谷歌DeepMind WeatherNext 2如何重塑小时级气象预报新范式

鹭羽发自凹非寺