智谱AI唐杰:领域大模型是伪命题,在线学习与自我评估将成新Scaling范式

清华大学教授、智谱AI首席科学家唐杰近期发表长文,总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开,提出了若干关键论断。 智谱AI唐杰:领域大模型是伪命题,在线学习与自我评估将成新Scaling范式

唐杰教授的核心观点在于,大模型正从“学会世界”走向“进入世界”,真正的挑战已从智能本身转向如何将智能转化为现实生产力。 他强调,Agent的落地是模型从认知系统转变为生产系统的关键一步,但当前不同Agent环境间的泛化与迁移依然极其困难,解决方案仍需依赖更多环境数据及针对性的强化学习。唐杰提出了AI应用的第一性原理:“AI模型应用的第一性原理不应该是创造新的App,其本质是AGI替代人类工作,因此研发替代不同工种的AI是应用的关键。”此外,他指出模型的自学习与自迭代将是下一阶段的必然能力,在线学习自我评估可能成为新的Scaling范式。

预训练未止,中后训练成重点

在预训练层面,唐杰的判断明确而务实。他认为,经过数年大规模训练,大模型已系统性掌握世界常识并具备基础推理能力。从工程效率看,更多数据、更大参数、更充分的算力利用,仍是提升基座模型能力最直接有效的方式。这意味着Scaling并未失效,它依然是当前性价比最高的路径。 行业关于“Scaling是否走到尽头”的争论,更多聚焦于边际收益是否下降,而非其是否成立。

问题在于,预训练解决的是“平均意义上的智能”,无法保证模型在真实世界中的可用性。唐杰重点讨论了激活对齐与推理增强:随着通用基准测试的普及,模型在标准化评测上表现越来越好,但也带来了过拟合风险——模型变得更擅长“考试”,却未必更擅长应对真实、复杂、长尾的场景。类似地,Ilya Sutskever与Karpathy也曾指出,当前模型能在高难度评测中夺金,却在简单任务上出错,且对过度依赖基准测试的流程表示不信任。现实环境的问题往往分布不均、边界模糊、变化频繁,真正决定用户体验的,恰恰是基准测试覆盖不到的角落。因此,如何让模型更快、更稳地对齐真实场景,尤其是激活长尾能力,成为新的关键。这也正是中训练与后训练价值凸显的原因:它们让模型不只是“更聪明”,而是“更好用”。

Agent:模型进入现实世界的关键

唐杰用了一个形象的比喻:

“大模型就像一个人不停地学习,一直学到博士,也只是知识积累,还没有转化为实际生产力;而Agent则是模型能力扩展的里程碑,标志着大模型真正进入了人类真实世界。”

值得注意的是,Agent的实现路径也在演变:过去更多依赖应用层编排,而现在Agent行为和数据正逐步被纳入模型训练过程本身,以增强通用性。但核心难点犹存,不同Agent环境间的泛化与迁移依然困难。现实可行的解法仍相当“朴素”:依赖更多环境数据,以及针对不同环境的强化学习。

模型记忆是必需能力

唐杰认为,模型要在真实环境中行动,记忆能力是必需的。他以人类记忆结构作类比:
* 短期记忆,对应上下文。
* 中期记忆,对应RAG。
* 长期记忆,对应模型参数。
* 人类历史,对应公共知识库。

当前大模型体系中,这些机制各自解决了一部分问题,但整体仍不完善。一种直接思路是通过超长上下文和记忆压缩,将更多信息“塞进”模型上下文,以同时覆盖短中期记忆。但真正棘手的问题在于:如何迭代模型已有知识、如何修改模型参数而不引发灾难性遗忘。这仍是一个悬而未决的核心难题。

在线学习与自我评估:或成新Scaling范式

一旦引入记忆机制,在线学习便自然成为焦点。当前模型是“离线”的,训练后即固定,这导致模型无法自我迭代,重新训练浪费资源且丢失大量真实交互数据。唐杰认为,具备自学习、自进化能力的模型几乎是下一阶段的必然形态,而在线学习的前提是模型具备自我评估能力。即模型必须能判断“自己对或不对”,哪怕只是概率意义上的判断,也足以形成优化目标。若此点成立,自我评估机制本身可能成为一种新的Scaling范式,从“堆资源”走向“自我进化”。

唐杰提到了持续学习、实时学习、在线学习等概念。OpenAI前联合创始人John Schulman与谷歌DeepMind CEO Demis Hassabis也发表过类似观点。Demis指出,大模型的持续在线学习能力仍是通往AGI的重要缺失环节;Schulman则认为短时上下文学习目前无可替代。这与Karpathy提到的可验证奖励的强化学习有相通之处,其核心是让LLM在答案可自动验证的环境中训练。神奇的是,经过这种训练,模型会自发“学会思考”,将复杂问题拆解为中间步骤并摸索解题策略。若此机制能泛化至更多场景,在线学习便有望实现。

AI应用的第一性原理是「替代工种」

在应用层面,唐杰回归第一性原理。他认为,随着模型能力增强,大模型发展必然走向端到端,模型研发与应用将愈发难以分离。AI应用的核心目标并非创造新的App形态,而是替代或重构人类工作。聊天模式已在某种程度上替代了搜索,并融合了部分情感交互能力。沿此逻辑推演,2026年可能成为AI替代不同工种的集中爆发期。

多模态与具身智能:前景广阔,道阻且长

对于多模态与具身智能,唐杰态度相对冷静。多模态前景广阔,但在当前阶段,它并不能显著抬升AGI的智能上界,而这个上界本身仍属未知。更现实的路径可能是文本、多模态理解与生成分别推进,同时保持交叉探索。

具身智能的挑战更为尖锐。理解了Agent的难点,便能理解具身为何如此困难:少样本激活通用具身能力几乎不现实,采集真实数据或合成数据的成本极高。同时,机器人本体的不稳定性和高故障率也客观限制了发展。但唐杰判断,一旦数据规模真正提升,通用能力自会形成门槛,到2026年,这一领域可能出现明显进展。

领域大模型是个「伪命题」

在领域大模型与应用问题上,唐杰给出了直白判断:领域大模型是个“伪命题”。他直言:都AGI了,哪还有什么领域特定的AGI。唐杰认为,在AGI实现之前,领域模型会长期存在,其背后更多是应用企业的战略选择——不愿在AI企业面前完全失去主导权,希望通过领域知识构建护城河,将AI驯化为工具。但从长期看,AI的本质更像海啸,而非插件。 领域中的数据、流程和Agent行为,最终都会被吸纳进更通用的主模型之中。

相应地,大模型应用必须回归创造真实价值这一原点:要么将原本需要人参与的软件彻底AI化,要么直接打造对齐某个工种的AI系统,替代人类完成工作。如果一个AI产品无法真正帮助人、创造价值,那它注定没有生命力。

知名平台CEO:AGI早已实现,键盘将消失

一位知名平台CEO提出,通用人工智能(AGI)其实早已实现。他认为,未来的交互方式将发生根本性变革,物理键盘将会消失。对于当前AI领域的竞争,他指出,第三阵营的玩家无需追求“超级智能”即可成功,真正的泡沫可能存在于追求人工超级智能(ASI)的阵营中。硅谷一位知名创始人也表达了类似观点,认为软件的未来不会简单地退化为数据库。

辛顿反思:当年低估了Transformer

深度学习先驱杰弗里·辛顿(Geoffrey Hinton)近期亲口承认,当年严重低估了Transformer架构的潜力与影响力。他还透露,其重要的“知识蒸馏”技术论文曾一度被学术会议拒稿。与此同时,谷歌首席科学家杰夫·迪恩(Jeff Dean)透露,谷歌内部早有约8万名员工在使用其聊天机器人技术,但由于对技术成熟度和潜在风险的顾虑,当时并未选择公开发布。

Gemini 3预训练负责人:范式已变,合成数据至关重要

谷歌Gemini 3项目的预训练负责人分享道,该模型从训练伊始就大量使用了合成数据,这标志着大模型训练范式已经发生变化。他强调,当前前沿AI研究越来越呈现出工程化的特点。对于业界在基准测试上激烈竞争的现象,他并不太担心这会导致模型过拟合,认为真正的挑战在于构建能够泛化到更广泛、更复杂现实任务中的系统。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/15354

(0)
上一篇 2025年12月26日 上午11:35
下一篇 2025年12月26日 上午11:44

相关推荐

  • JTok:大模型扩展新维度!上海交大提出token-indexed参数,不增算力也能提升性能

    大模型扩展的困境 大模型的发展长期遵循一条铁律:依据Scaling Law堆叠参数和数据,模型性能便会遵循负幂律持续提升。然而,这条道路正变得日益昂贵,因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。 在传统的稠密模型中,扩展逻辑简单直接:加宽网络或加深层数。随之而来的硬伤是:参数规模一旦暴涨,计算量和显存需求便会线性飙升。在高质…

    2026年3月3日
    39000
  • DeepMind突破:多智能体系统规模化瓶颈揭示,任务匹配度成关键性能指标

    在AI领域,智能体(Agent)的研究与应用日益增多,原生多智能体工作的基础模型也已开始出现。 作为一个能够推理、规划和行动的系统,智能体正逐渐成为现实世界人工智能应用的常见范式。从编程助手到私人健康教练,AI应用正从单次问答转向持续的多步骤交互。尽管研究人员长期以来一直利用既定指标来优化传统机器学习模型的准确性,但AI智能体引入了新的复杂性。 与孤立的预测…

    2026年2月25日
    45000
  • OpenClaw爆火背后:智能体技术迎来“可用性革命”,工程整合成关键突破点

    过去数月,AI领域很难绕开一个名字——OpenClaw。该项目在极短时间内获得了爆发式关注:数十万星标、惊人的Token消耗,以及几乎所有头部科技公司的快速跟进。表面上看,它像是又一个现象级AI产品;但进一步审视,一个更值得思考的问题随之浮现:OpenClaw的出现究竟意味着什么?它是一次技术突破,还是某种更深层变化的信号? 近日,端侧智能北京市重点实验室在…

    2026年3月31日
    91000
  • 为什么你的 AI Agent 需要状态回放(以及 MCP 如何解决这个问题)

    引言 随着 AI Agent 日益复杂,在生产环境中管理其状态已成为最关键的挑战之一。当 Agent 需要在多轮交互中保持上下文、从中断的流程中恢复,或对其决策过程进行审计时,传统的无状态架构会失效。这正是状态回放变得必不可少的原因,而模型上下文协议则为此提供了优雅的解决方案。 在这份全面指南中,我们将探讨为何状态管理对 AI Agent 至关重要、它解决了…

    2025年12月29日
    43100
  • 劈开教育“不可能三角”:揭秘AI名师如何实现千人千面个性化教学

    教育领域正迎来一个AI应用新物种—— 其讲课节奏、语气与互动,都展现出高度的自然感。 更重要的是,它不仅能“像老师一样讲课”,还能为每一位学员提供一对一的个性化教学。 这位AI导师,出自一家名为“与爱为舞”的AI原生应用企业。自年初上线以来,已累计为百万级用户提供学习陪伴与一对一讲解服务。 教育行业,向来是一个“规模、质量、成本”的不可能三角。 既要实现千人…

    2025年12月30日
    43300