智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

清华大学教授、智谱AI首席科学家唐杰近期发表长文，总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开，提出了若干关键论断。

唐杰教授的核心观点在于，大模型正从“学会世界”走向“进入世界”，真正的挑战已从智能本身转向如何将智能转化为现实生产力。 他强调，Agent的落地是模型从认知系统转变为生产系统的关键一步，但当前不同Agent环境间的泛化与迁移依然极其困难，解决方案仍需依赖更多环境数据及针对性的强化学习。唐杰提出了AI应用的第一性原理：“AI模型应用的第一性原理不应该是创造新的App，其本质是AGI替代人类工作，因此研发替代不同工种的AI是应用的关键。”此外，他指出模型的自学习与自迭代将是下一阶段的必然能力，在线学习和自我评估可能成为新的Scaling范式。

预训练未止，中后训练成重点

在预训练层面，唐杰的判断明确而务实。他认为，经过数年大规模训练，大模型已系统性掌握世界常识并具备基础推理能力。从工程效率看，更多数据、更大参数、更充分的算力利用，仍是提升基座模型能力最直接有效的方式。这意味着Scaling并未失效，它依然是当前性价比最高的路径。 行业关于“Scaling是否走到尽头”的争论，更多聚焦于边际收益是否下降，而非其是否成立。

问题在于，预训练解决的是“平均意义上的智能”，无法保证模型在真实世界中的可用性。唐杰重点讨论了激活对齐与推理增强：随着通用基准测试的普及，模型在标准化评测上表现越来越好，但也带来了过拟合风险——模型变得更擅长“考试”，却未必更擅长应对真实、复杂、长尾的场景。类似地，Ilya Sutskever与Karpathy也曾指出，当前模型能在高难度评测中夺金，却在简单任务上出错，且对过度依赖基准测试的流程表示不信任。现实环境的问题往往分布不均、边界模糊、变化频繁，真正决定用户体验的，恰恰是基准测试覆盖不到的角落。因此，如何让模型更快、更稳地对齐真实场景，尤其是激活长尾能力，成为新的关键。这也正是中训练与后训练价值凸显的原因：它们让模型不只是“更聪明”，而是“更好用”。

Agent：模型进入现实世界的关键

唐杰用了一个形象的比喻：

“大模型就像一个人不停地学习，一直学到博士，也只是知识积累，还没有转化为实际生产力；而Agent则是模型能力扩展的里程碑，标志着大模型真正进入了人类真实世界。”

值得注意的是，Agent的实现路径也在演变：过去更多依赖应用层编排，而现在Agent行为和数据正逐步被纳入模型训练过程本身，以增强通用性。但核心难点犹存，不同Agent环境间的泛化与迁移依然困难。现实可行的解法仍相当“朴素”：依赖更多环境数据，以及针对不同环境的强化学习。

模型记忆是必需能力

唐杰认为，模型要在真实环境中行动，记忆能力是必需的。他以人类记忆结构作类比：
* 短期记忆，对应上下文。
* 中期记忆，对应RAG。
* 长期记忆，对应模型参数。
* 人类历史，对应公共知识库。

当前大模型体系中，这些机制各自解决了一部分问题，但整体仍不完善。一种直接思路是通过超长上下文和记忆压缩，将更多信息“塞进”模型上下文，以同时覆盖短中期记忆。但真正棘手的问题在于：如何迭代模型已有知识、如何修改模型参数而不引发灾难性遗忘。这仍是一个悬而未决的核心难题。

在线学习与自我评估：或成新Scaling范式

一旦引入记忆机制，在线学习便自然成为焦点。当前模型是“离线”的，训练后即固定，这导致模型无法自我迭代，重新训练浪费资源且丢失大量真实交互数据。唐杰认为，具备自学习、自进化能力的模型几乎是下一阶段的必然形态，而在线学习的前提是模型具备自我评估能力。即模型必须能判断“自己对或不对”，哪怕只是概率意义上的判断，也足以形成优化目标。若此点成立，自我评估机制本身可能成为一种新的Scaling范式，从“堆资源”走向“自我进化”。

唐杰提到了持续学习、实时学习、在线学习等概念。OpenAI前联合创始人John Schulman与谷歌DeepMind CEO Demis Hassabis也发表过类似观点。Demis指出，大模型的持续在线学习能力仍是通往AGI的重要缺失环节；Schulman则认为短时上下文学习目前无可替代。这与Karpathy提到的可验证奖励的强化学习有相通之处，其核心是让LLM在答案可自动验证的环境中训练。神奇的是，经过这种训练，模型会自发“学会思考”，将复杂问题拆解为中间步骤并摸索解题策略。若此机制能泛化至更多场景，在线学习便有望实现。

AI应用的第一性原理是「替代工种」

在应用层面，唐杰回归第一性原理。他认为，随着模型能力增强，大模型发展必然走向端到端，模型研发与应用将愈发难以分离。AI应用的核心目标并非创造新的App形态，而是替代或重构人类工作。聊天模式已在某种程度上替代了搜索，并融合了部分情感交互能力。沿此逻辑推演，2026年可能成为AI替代不同工种的集中爆发期。

多模态与具身智能：前景广阔，道阻且长

对于多模态与具身智能，唐杰态度相对冷静。多模态前景广阔，但在当前阶段，它并不能显著抬升AGI的智能上界，而这个上界本身仍属未知。更现实的路径可能是文本、多模态理解与生成分别推进，同时保持交叉探索。

具身智能的挑战更为尖锐。理解了Agent的难点，便能理解具身为何如此困难：少样本激活通用具身能力几乎不现实，采集真实数据或合成数据的成本极高。同时，机器人本体的不稳定性和高故障率也客观限制了发展。但唐杰判断，一旦数据规模真正提升，通用能力自会形成门槛，到2026年，这一领域可能出现明显进展。

领域大模型是个「伪命题」

在领域大模型与应用问题上，唐杰给出了直白判断：领域大模型是个“伪命题”。他直言：都AGI了，哪还有什么领域特定的AGI。唐杰认为，在AGI实现之前，领域模型会长期存在，其背后更多是应用企业的战略选择——不愿在AI企业面前完全失去主导权，希望通过领域知识构建护城河，将AI驯化为工具。但从长期看，AI的本质更像海啸，而非插件。 领域中的数据、流程和Agent行为，最终都会被吸纳进更通用的主模型之中。

相应地，大模型应用必须回归创造真实价值这一原点：要么将原本需要人参与的软件彻底AI化，要么直接打造对齐某个工种的AI系统，替代人类完成工作。如果一个AI产品无法真正帮助人、创造价值，那它注定没有生命力。

知名平台CEO：AGI早已实现，键盘将消失

一位知名平台CEO提出，通用人工智能（AGI）其实早已实现。他认为，未来的交互方式将发生根本性变革，物理键盘将会消失。对于当前AI领域的竞争，他指出，第三阵营的玩家无需追求“超级智能”即可成功，真正的泡沫可能存在于追求人工超级智能（ASI）的阵营中。硅谷一位知名创始人也表达了类似观点，认为软件的未来不会简单地退化为数据库。

辛顿反思：当年低估了Transformer

深度学习先驱杰弗里·辛顿（Geoffrey Hinton）近期亲口承认，当年严重低估了Transformer架构的潜力与影响力。他还透露，其重要的“知识蒸馏”技术论文曾一度被学术会议拒稿。与此同时，谷歌首席科学家杰夫·迪恩（Jeff Dean）透露，谷歌内部早有约8万名员工在使用其聊天机器人技术，但由于对技术成熟度和潜在风险的顾虑，当时并未选择公开发布。

Gemini 3预训练负责人：范式已变，合成数据至关重要

谷歌Gemini 3项目的预训练负责人分享道，该模型从训练伊始就大量使用了合成数据，这标志着大模型训练范式已经发生变化。他强调，当前前沿AI研究越来越呈现出工程化的特点。对于业界在基准测试上激烈竞争的现象，他并不太担心这会导致模型过拟合，认为真正的挑战在于构建能够泛化到更广泛、更复杂现实任务中的系统。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15354

智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

预训练未止，中后训练成重点

Agent：模型进入现实世界的关键

模型记忆是必需能力

在线学习与自我评估：或成新Scaling范式

AI应用的第一性原理是「替代工种」

多模态与具身智能：前景广阔，道阻且长

领域大模型是个「伪命题」

相关推荐

OpenAI研究员揭秘：Codex内部评估机制与AI产品落地的50+实战经验

Cog-RAG：让RAG在检索前先思考，用双超图架构模拟人类认知过程

17岁高中生实现Ilya预言！Kimi团队“旋转”注意力机制，训练效率提升25%，马斯克都来围观

Agent Skills：解锁AI Agent从“思考”到“行动”的关键能力层

AI Agent 工作流革命：三大开源神器让非技术用户也能轻松驾驭智能自动化