清华大学教授、智谱AI首席科学家唐杰近期发表长文,总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开,提出了若干关键论断。 
唐杰教授的核心观点在于,大模型正从“学会世界”走向“进入世界”,真正的挑战已从智能本身转向如何将智能转化为现实生产力。 他强调,Agent的落地是模型从认知系统转变为生产系统的关键一步,但当前不同Agent环境间的泛化与迁移依然极其困难,解决方案仍需依赖更多环境数据及针对性的强化学习。唐杰提出了AI应用的第一性原理:“AI模型应用的第一性原理不应该是创造新的App,其本质是AGI替代人类工作,因此研发替代不同工种的AI是应用的关键。”此外,他指出模型的自学习与自迭代将是下一阶段的必然能力,在线学习和自我评估可能成为新的Scaling范式。
预训练未止,中后训练成重点
在预训练层面,唐杰的判断明确而务实。他认为,经过数年大规模训练,大模型已系统性掌握世界常识并具备基础推理能力。从工程效率看,更多数据、更大参数、更充分的算力利用,仍是提升基座模型能力最直接有效的方式。这意味着Scaling并未失效,它依然是当前性价比最高的路径。 行业关于“Scaling是否走到尽头”的争论,更多聚焦于边际收益是否下降,而非其是否成立。
问题在于,预训练解决的是“平均意义上的智能”,无法保证模型在真实世界中的可用性。唐杰重点讨论了激活对齐与推理增强:随着通用基准测试的普及,模型在标准化评测上表现越来越好,但也带来了过拟合风险——模型变得更擅长“考试”,却未必更擅长应对真实、复杂、长尾的场景。类似地,Ilya Sutskever与Karpathy也曾指出,当前模型能在高难度评测中夺金,却在简单任务上出错,且对过度依赖基准测试的流程表示不信任。现实环境的问题往往分布不均、边界模糊、变化频繁,真正决定用户体验的,恰恰是基准测试覆盖不到的角落。因此,如何让模型更快、更稳地对齐真实场景,尤其是激活长尾能力,成为新的关键。这也正是中训练与后训练价值凸显的原因:它们让模型不只是“更聪明”,而是“更好用”。
Agent:模型进入现实世界的关键
唐杰用了一个形象的比喻:
“大模型就像一个人不停地学习,一直学到博士,也只是知识积累,还没有转化为实际生产力;而Agent则是模型能力扩展的里程碑,标志着大模型真正进入了人类真实世界。”
值得注意的是,Agent的实现路径也在演变:过去更多依赖应用层编排,而现在Agent行为和数据正逐步被纳入模型训练过程本身,以增强通用性。但核心难点犹存,不同Agent环境间的泛化与迁移依然困难。现实可行的解法仍相当“朴素”:依赖更多环境数据,以及针对不同环境的强化学习。
模型记忆是必需能力
唐杰认为,模型要在真实环境中行动,记忆能力是必需的。他以人类记忆结构作类比:
* 短期记忆,对应上下文。
* 中期记忆,对应RAG。
* 长期记忆,对应模型参数。
* 人类历史,对应公共知识库。
当前大模型体系中,这些机制各自解决了一部分问题,但整体仍不完善。一种直接思路是通过超长上下文和记忆压缩,将更多信息“塞进”模型上下文,以同时覆盖短中期记忆。但真正棘手的问题在于:如何迭代模型已有知识、如何修改模型参数而不引发灾难性遗忘。这仍是一个悬而未决的核心难题。
在线学习与自我评估:或成新Scaling范式
一旦引入记忆机制,在线学习便自然成为焦点。当前模型是“离线”的,训练后即固定,这导致模型无法自我迭代,重新训练浪费资源且丢失大量真实交互数据。唐杰认为,具备自学习、自进化能力的模型几乎是下一阶段的必然形态,而在线学习的前提是模型具备自我评估能力。即模型必须能判断“自己对或不对”,哪怕只是概率意义上的判断,也足以形成优化目标。若此点成立,自我评估机制本身可能成为一种新的Scaling范式,从“堆资源”走向“自我进化”。
唐杰提到了持续学习、实时学习、在线学习等概念。OpenAI前联合创始人John Schulman与谷歌DeepMind CEO Demis Hassabis也发表过类似观点。Demis指出,大模型的持续在线学习能力仍是通往AGI的重要缺失环节;Schulman则认为短时上下文学习目前无可替代。这与Karpathy提到的可验证奖励的强化学习有相通之处,其核心是让LLM在答案可自动验证的环境中训练。神奇的是,经过这种训练,模型会自发“学会思考”,将复杂问题拆解为中间步骤并摸索解题策略。若此机制能泛化至更多场景,在线学习便有望实现。
AI应用的第一性原理是「替代工种」
在应用层面,唐杰回归第一性原理。他认为,随着模型能力增强,大模型发展必然走向端到端,模型研发与应用将愈发难以分离。AI应用的核心目标并非创造新的App形态,而是替代或重构人类工作。聊天模式已在某种程度上替代了搜索,并融合了部分情感交互能力。沿此逻辑推演,2026年可能成为AI替代不同工种的集中爆发期。
多模态与具身智能:前景广阔,道阻且长
对于多模态与具身智能,唐杰态度相对冷静。多模态前景广阔,但在当前阶段,它并不能显著抬升AGI的智能上界,而这个上界本身仍属未知。更现实的路径可能是文本、多模态理解与生成分别推进,同时保持交叉探索。
具身智能的挑战更为尖锐。理解了Agent的难点,便能理解具身为何如此困难:少样本激活通用具身能力几乎不现实,采集真实数据或合成数据的成本极高。同时,机器人本体的不稳定性和高故障率也客观限制了发展。但唐杰判断,一旦数据规模真正提升,通用能力自会形成门槛,到2026年,这一领域可能出现明显进展。
领域大模型是个「伪命题」
在领域大模型与应用问题上,唐杰给出了直白判断:领域大模型是个“伪命题”。他直言:都AGI了,哪还有什么领域特定的AGI。唐杰认为,在AGI实现之前,领域模型会长期存在,其背后更多是应用企业的战略选择——不愿在AI企业面前完全失去主导权,希望通过领域知识构建护城河,将AI驯化为工具。但从长期看,AI的本质更像海啸,而非插件。 领域中的数据、流程和Agent行为,最终都会被吸纳进更通用的主模型之中。
相应地,大模型应用必须回归创造真实价值这一原点:要么将原本需要人参与的软件彻底AI化,要么直接打造对齐某个工种的AI系统,替代人类完成工作。如果一个AI产品无法真正帮助人、创造价值,那它注定没有生命力。
知名平台CEO:AGI早已实现,键盘将消失
一位知名平台CEO提出,通用人工智能(AGI)其实早已实现。他认为,未来的交互方式将发生根本性变革,物理键盘将会消失。对于当前AI领域的竞争,他指出,第三阵营的玩家无需追求“超级智能”即可成功,真正的泡沫可能存在于追求人工超级智能(ASI)的阵营中。硅谷一位知名创始人也表达了类似观点,认为软件的未来不会简单地退化为数据库。
辛顿反思:当年低估了Transformer
深度学习先驱杰弗里·辛顿(Geoffrey Hinton)近期亲口承认,当年严重低估了Transformer架构的潜力与影响力。他还透露,其重要的“知识蒸馏”技术论文曾一度被学术会议拒稿。与此同时,谷歌首席科学家杰夫·迪恩(Jeff Dean)透露,谷歌内部早有约8万名员工在使用其聊天机器人技术,但由于对技术成熟度和潜在风险的顾虑,当时并未选择公开发布。
Gemini 3预训练负责人:范式已变,合成数据至关重要
谷歌Gemini 3项目的预训练负责人分享道,该模型从训练伊始就大量使用了合成数据,这标志着大模型训练范式已经发生变化。他强调,当前前沿AI研究越来越呈现出工程化的特点。对于业界在基准测试上激烈竞争的现象,他并不太担心这会导致模型过拟合,认为真正的挑战在于构建能够泛化到更广泛、更复杂现实任务中的系统。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15354
