智谱AI唐杰:领域大模型是伪命题,在线学习与自我评估将成新Scaling范式

清华大学教授、智谱AI首席科学家唐杰近期发表长文,总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开,提出了若干关键论断。 智谱AI唐杰:领域大模型是伪命题,在线学习与自我评估将成新Scaling范式

唐杰教授的核心观点在于,大模型正从“学会世界”走向“进入世界”,真正的挑战已从智能本身转向如何将智能转化为现实生产力。 他强调,Agent的落地是模型从认知系统转变为生产系统的关键一步,但当前不同Agent环境间的泛化与迁移依然极其困难,解决方案仍需依赖更多环境数据及针对性的强化学习。唐杰提出了AI应用的第一性原理:“AI模型应用的第一性原理不应该是创造新的App,其本质是AGI替代人类工作,因此研发替代不同工种的AI是应用的关键。”此外,他指出模型的自学习与自迭代将是下一阶段的必然能力,在线学习自我评估可能成为新的Scaling范式。

预训练未止,中后训练成重点

在预训练层面,唐杰的判断明确而务实。他认为,经过数年大规模训练,大模型已系统性掌握世界常识并具备基础推理能力。从工程效率看,更多数据、更大参数、更充分的算力利用,仍是提升基座模型能力最直接有效的方式。这意味着Scaling并未失效,它依然是当前性价比最高的路径。 行业关于“Scaling是否走到尽头”的争论,更多聚焦于边际收益是否下降,而非其是否成立。

问题在于,预训练解决的是“平均意义上的智能”,无法保证模型在真实世界中的可用性。唐杰重点讨论了激活对齐与推理增强:随着通用基准测试的普及,模型在标准化评测上表现越来越好,但也带来了过拟合风险——模型变得更擅长“考试”,却未必更擅长应对真实、复杂、长尾的场景。类似地,Ilya Sutskever与Karpathy也曾指出,当前模型能在高难度评测中夺金,却在简单任务上出错,且对过度依赖基准测试的流程表示不信任。现实环境的问题往往分布不均、边界模糊、变化频繁,真正决定用户体验的,恰恰是基准测试覆盖不到的角落。因此,如何让模型更快、更稳地对齐真实场景,尤其是激活长尾能力,成为新的关键。这也正是中训练与后训练价值凸显的原因:它们让模型不只是“更聪明”,而是“更好用”。

Agent:模型进入现实世界的关键

唐杰用了一个形象的比喻:

“大模型就像一个人不停地学习,一直学到博士,也只是知识积累,还没有转化为实际生产力;而Agent则是模型能力扩展的里程碑,标志着大模型真正进入了人类真实世界。”

值得注意的是,Agent的实现路径也在演变:过去更多依赖应用层编排,而现在Agent行为和数据正逐步被纳入模型训练过程本身,以增强通用性。但核心难点犹存,不同Agent环境间的泛化与迁移依然困难。现实可行的解法仍相当“朴素”:依赖更多环境数据,以及针对不同环境的强化学习。

模型记忆是必需能力

唐杰认为,模型要在真实环境中行动,记忆能力是必需的。他以人类记忆结构作类比:
* 短期记忆,对应上下文。
* 中期记忆,对应RAG。
* 长期记忆,对应模型参数。
* 人类历史,对应公共知识库。

当前大模型体系中,这些机制各自解决了一部分问题,但整体仍不完善。一种直接思路是通过超长上下文和记忆压缩,将更多信息“塞进”模型上下文,以同时覆盖短中期记忆。但真正棘手的问题在于:如何迭代模型已有知识、如何修改模型参数而不引发灾难性遗忘。这仍是一个悬而未决的核心难题。

在线学习与自我评估:或成新Scaling范式

一旦引入记忆机制,在线学习便自然成为焦点。当前模型是“离线”的,训练后即固定,这导致模型无法自我迭代,重新训练浪费资源且丢失大量真实交互数据。唐杰认为,具备自学习、自进化能力的模型几乎是下一阶段的必然形态,而在线学习的前提是模型具备自我评估能力。即模型必须能判断“自己对或不对”,哪怕只是概率意义上的判断,也足以形成优化目标。若此点成立,自我评估机制本身可能成为一种新的Scaling范式,从“堆资源”走向“自我进化”。

唐杰提到了持续学习、实时学习、在线学习等概念。OpenAI前联合创始人John Schulman与谷歌DeepMind CEO Demis Hassabis也发表过类似观点。Demis指出,大模型的持续在线学习能力仍是通往AGI的重要缺失环节;Schulman则认为短时上下文学习目前无可替代。这与Karpathy提到的可验证奖励的强化学习有相通之处,其核心是让LLM在答案可自动验证的环境中训练。神奇的是,经过这种训练,模型会自发“学会思考”,将复杂问题拆解为中间步骤并摸索解题策略。若此机制能泛化至更多场景,在线学习便有望实现。

AI应用的第一性原理是「替代工种」

在应用层面,唐杰回归第一性原理。他认为,随着模型能力增强,大模型发展必然走向端到端,模型研发与应用将愈发难以分离。AI应用的核心目标并非创造新的App形态,而是替代或重构人类工作。聊天模式已在某种程度上替代了搜索,并融合了部分情感交互能力。沿此逻辑推演,2026年可能成为AI替代不同工种的集中爆发期。

多模态与具身智能:前景广阔,道阻且长

对于多模态与具身智能,唐杰态度相对冷静。多模态前景广阔,但在当前阶段,它并不能显著抬升AGI的智能上界,而这个上界本身仍属未知。更现实的路径可能是文本、多模态理解与生成分别推进,同时保持交叉探索。

具身智能的挑战更为尖锐。理解了Agent的难点,便能理解具身为何如此困难:少样本激活通用具身能力几乎不现实,采集真实数据或合成数据的成本极高。同时,机器人本体的不稳定性和高故障率也客观限制了发展。但唐杰判断,一旦数据规模真正提升,通用能力自会形成门槛,到2026年,这一领域可能出现明显进展。

领域大模型是个「伪命题」

在领域大模型与应用问题上,唐杰给出了直白判断:领域大模型是个“伪命题”。他直言:都AGI了,哪还有什么领域特定的AGI。唐杰认为,在AGI实现之前,领域模型会长期存在,其背后更多是应用企业的战略选择——不愿在AI企业面前完全失去主导权,希望通过领域知识构建护城河,将AI驯化为工具。但从长期看,AI的本质更像海啸,而非插件。 领域中的数据、流程和Agent行为,最终都会被吸纳进更通用的主模型之中。

相应地,大模型应用必须回归创造真实价值这一原点:要么将原本需要人参与的软件彻底AI化,要么直接打造对齐某个工种的AI系统,替代人类完成工作。如果一个AI产品无法真正帮助人、创造价值,那它注定没有生命力。

知名平台CEO:AGI早已实现,键盘将消失

一位知名平台CEO提出,通用人工智能(AGI)其实早已实现。他认为,未来的交互方式将发生根本性变革,物理键盘将会消失。对于当前AI领域的竞争,他指出,第三阵营的玩家无需追求“超级智能”即可成功,真正的泡沫可能存在于追求人工超级智能(ASI)的阵营中。硅谷一位知名创始人也表达了类似观点,认为软件的未来不会简单地退化为数据库。

辛顿反思:当年低估了Transformer

深度学习先驱杰弗里·辛顿(Geoffrey Hinton)近期亲口承认,当年严重低估了Transformer架构的潜力与影响力。他还透露,其重要的“知识蒸馏”技术论文曾一度被学术会议拒稿。与此同时,谷歌首席科学家杰夫·迪恩(Jeff Dean)透露,谷歌内部早有约8万名员工在使用其聊天机器人技术,但由于对技术成熟度和潜在风险的顾虑,当时并未选择公开发布。

Gemini 3预训练负责人:范式已变,合成数据至关重要

谷歌Gemini 3项目的预训练负责人分享道,该模型从训练伊始就大量使用了合成数据,这标志着大模型训练范式已经发生变化。他强调,当前前沿AI研究越来越呈现出工程化的特点。对于业界在基准测试上激烈竞争的现象,他并不太担心这会导致模型过拟合,认为真正的挑战在于构建能够泛化到更广泛、更复杂现实任务中的系统。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15354

(0)
上一篇 2025年12月26日 上午11:35
下一篇 2025年12月26日 上午11:44

相关推荐

  • OpenAI研究员揭秘:Codex内部评估机制与AI产品落地的50+实战经验

    昨日,两位来自 OpenAI 及前微软的 AI 产品一线从业者——Aishwarya Naresh Reganti 与 Kiriti Badam,在 Lenny 的播客节目中深入分享了他们在超过 50 个 AI 产品落地项目中的实践经验与教训。 这些经验源于反复的试错与总结。播客主持人 Lenny 提炼出一个核心观点:痛苦是新的护城河。 两位嘉宾均具备深厚的…

    2026年1月12日
    22900
  • Cog-RAG:让RAG在检索前先思考,用双超图架构模拟人类认知过程

    Retrieval-Augmented Generation(RAG)已成为帮助大型语言模型保持信息“有根有据”的标准方法。其基本流程广为人知:将文档切分为片段,进行向量化嵌入,执行向量检索,最后将最匹配的前K个结果输入给大模型生成答案。 然而,这条标准流水线存在一些固有的局限性。 为什么多数 RAG 系统仍像支离破碎的记忆 图 1:图、超图与 Cog-RA…

    2026年2月23日
    15800
  • 17岁高中生实现Ilya预言!Kimi团队“旋转”注意力机制,训练效率提升25%,马斯克都来围观

    17岁高中生实现Ilya预言:Kimi团队“旋转”注意力机制,训练效率提升25% 一位17岁的高中生,以共同第一作者的身份,在Kimi团队将OpenAI首席科学家Ilya Sutskever提出的一个设想变成了现实。 Ilya曾有一个著名的预言:将按时间顺序处理数据的LSTM网络“旋转90度”——即把时间轴替换为模型的深度轴——就演变成了当今主流的残差网络(…

    1天前
    17000
  • Agent Skills:解锁AI Agent从“思考”到“行动”的关键能力层

    为什么说它是 Agentic AI 真正“能干活”的关键 导语|为什么你的 Agent “看起来很聪明,却干不了事”? 许多开发者在初次构建 AI Agent 时,常会遇到一个典型困境: 👉 模型本身能力很强,擅长推理与对话,但一旦接入真实业务场景就频频“卡壳” 其根本原因往往不在于模型本身,而在于——未能真正理解并构建起 Agent Skills(智能体技…

    2026年1月6日
    26500
  • AI Agent 工作流革命:三大开源神器让非技术用户也能轻松驾驭智能自动化

    让不懂代码的人也能玩转 AI 工作流 n8n 这类工作流自动化工具虽然强大,但对于非技术用户而言,学习成本较高。光是理解各种节点的配置与连接方式,就需要花费不少时间。 近期在 GitHub 上发现了一个名为 Refly.AI 的开源项目,它自称是全球首个 Vibe Workflow 平台,专为非技术创作者设计,是一个用于构建 AI Agent 技能的神器。 …

    2026年2月25日
    13400