Google DeepMind研究副总裁Raia Hadsell揭秘：超越语言模型的三大前沿突破，构建智能未来的“根节点”

“我们正在思考 Gemini 下一个要使用的架构是什么？有哪些问题是只有 AI 才能真正解决的？以及我们该如何构建智能的未来？”近日，Google DeepMind 研究副总裁 Raia Hadsell 在一场演讲中，分享了团队在前沿 AI 领域的核心思路与关键突破。

Raia Hadsell 师从 AI 先驱 Yann LeCun，于 2010 年 DeepMind 初创时期加入，至今已 13 年。她目前协助管理约 1200 名科学家与工程师，并担任“英国 AI 大使”，致力于弥合产业、学术与政府间的协作。在演讲中，她强调团队更专注于寻找和解决能产生深远影响的 “根节点”问题，而非停留在表面的“叶子”问题上。其目标是深入探索宏大的未解问题空间，通过解决最核心的难题来带动广泛的下游影响，并负责任地构建造福人类的 AI。

基于此思路，Raia 重点介绍了三个不直接属于语言模型的前沿突破：

突破一：全模态嵌入模型 Gemini Embeddings 2

在高级模型领域，嵌入模型（Embedding Models） 是生成式 AI 至关重要的伙伴。其设计灵感来源于神经科学中的“特定概念细胞”（如“詹妮弗·安妮斯顿细胞”），即一小簇神经元会对特定的人、物或概念产生响应，且这种响应是跨感官模态（如名字、照片、声音）且高度鲁棒的。

受此启发，AI 中的嵌入模型旨在对概念进行编码，实现快速的跨模态检索、识别与比对。Google 团队近期发布的 Gemini Embeddings 2 实现了理想的 全模态（Omnimodal） 能力。它基于 Gemini 模型的世界知识，能够将文本（最高 8K token）、128 秒视频、80 秒音频以及完整 PDF 文档，统一编码为单一的语义向量。

这种统一的多模态表示避免了分步整合导致的信息丢失，实现了真正的端到端处理。结合 “俄罗斯套娃表示学习”（MRL） 技术，该模型能在同一网络中支持不同维度的嵌入（如先用 256 维进行快速检索，再扩展至高维以获得更强表达力），从而构建出统一的语义空间，在检索、查询和智能体逻辑等任务中达到顶尖水平。

突破二：气象预测神经网络模型

天气预报是另一个 AI 展现非凡能力的领域。当被问及“能否用 AI 做出比物理模型更准确的降雨预测”时，DeepMind 团队开始了探索。他们发现，利用过去 40 年的全球气象数据，神经网络模型在这一任务上极具潜力。

团队开发的 GraphCast 模型，使用球面图神经网络，将地球表面至平流层下层建模为网格。该模型以自回归方式，预测未来 15 天内全球范围内超过 100 种大气变量（如风速、温度、湿度）。

其表现超越了传统物理模型的“黄金标准”。以 2024 年的飓风“李”为例，GraphCast 在 提前 9 天 时就准确预测了其在新斯科舍省的登陆地点，而最先进的物理模型只能在提前 6 天时做出准确预测。对于即将登陆的强飓风，这额外的 3 天预警时间至关重要。

突破三：世界模型 Genie

在 世界模型 领域，Genie 系列模型取得了令人兴奋的进展。它能够根据简单的提示词或图像，实时生成可交互的 3D 虚拟环境。

用户不仅能在这个动态生成的世界中行走、探索，还能通过互动实时改变世界的面貌。例如，一句“我刚刚改变了我所处的世界。我可以再次改变它。看，世界立刻变得不同了”，生动体现了其核心能力。这项技术为游戏、沉浸式娱乐与教育等领域开启了全新的可能性。

基于此，团队决定继续推动科学边界，开发了下一代模型——GenCast。与之前的模型不同，GenCast 虽然同样基于网格，但它是一个概率模型，具备更高的准确度和效率。天气本质上是混沌的，而概率模型能帮助我们理解极端情况下的可能性，使预测更具操作性，从而真正服务于实际气象预报。在准确性方面，GenCast 表现突出：在与 1300 个黄金标准基准预报的对比中，它在 97% 的情况下都更胜一筹。效率的提升同样惊人：现在只需单块芯片，就能在 8 分钟内生成 15 天的天气预报，彻底改变了此前依赖大型超级计算机耗时数小时的解决方案维度。

这支团队持续探索，去年又推出了新技术——FGN（函数生成网络）。这是一个根本性的转变：FGN 直接预测气旋，而非先预报天气再通过后期处理添加气旋检测。它将气旋的分类、识别、轨迹、风速乃至风眼形成直接融入网络进行训练，因此表现优异得多。目前，美国国家飓风中心已开始使用该技术，并对它所带来的优势感到兴奋。团队希望未来几年内，这项技术能在全球范围内得到应用。

为智能体创造“无限的环境”

最后，我想谈谈另一个非语言模型的前沿领域：世界模型。这源于 DeepMind 长期在游戏与模拟环境中的积累，从 Atari、围棋、星际争霸到机器人学的 Mojoko 环境，我们不仅研究智能体行为，也关注其所在的环境。我们越来越聚焦于一个目标：不仅要训练智能体，还要创造“无限的环境”。

早期的 Genie 1 证明了这条路径的可行性。它虽然只能生成运行几秒钟的 2D 平台游戏世界，但能根据文字提示实时生成风格各异的可交互环境。在此基础上，我们开始扩大规模：增加数据、改进方法，并在 3D 游戏上进行训练。

随后开发的 Genie 2 是交互式的，能生成 3D 环境，但运行速度较慢，画质也尚未达到现实世界级别。正当我们致力于改进时，Genie 3 诞生了。

随心所欲改变世界的 Genie 3

Genie 3 带来了质的飞跃。例如，当提示“我想要一个场景，让我正走在肯特郡泥泞的小路上”时，模型不仅生成了逼真的环境，还让你拥有一个身体，能够真实地与世界互动——它理解场景的外观，也理解互动所需的物理特性，比如水如何流动、脚步如何迈出。

它不仅能生成步行场景，还能创造滑雪等多样化的互动环境。更强大的是，Genie 3 支持以视频片段作为提示。我们曾用一位艺术家创作的前几秒视频作为输入，激活 Genie 3 来延展并激活整个世界。艺术家对此感到非常激动，因为他创作的片段被赋予了生命：你可以飞越其中，与物体互动。模型具备“记忆”，能记住场景中的特定元素（比如“奇怪的建筑”），并允许你返回。

这些环境多样、交互性强、质量高，且拥有连贯的记忆。在一个“折纸世界中的折纸蜥蜴”的测试中，你可以跑出一段距离后再返回起点，环境保持完全一致，这体现了出色的记忆一致性，为开发者提供了控制力。

最后，Genie 3 还支持动态提示。当身处一个世界时（例如走在伦敦卡姆登运河边），你可以实时输入新的提示，世界便会立刻随之改变。这种能力可以连续触发，创造出持续变幻的体验。

全新的前沿

这构想了一种全新的娱乐形式：通过“对抗式”提示来改变他人的世界体验。我认为这不仅对游戏，也对教育具有惊人潜力。能够进入一个可交互、可变化的世界进行学习，这种力量极其强大，未来我们必将看到更多此类应用。

我的分享到此结束，谢谢大家。

（附注：明天早上我的同事 Omar 将会介绍 Gemma 4，那是一个语言模型。）

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/31139

Google DeepMind研究副总裁Raia Hadsell揭秘：超越语言模型的三大前沿突破，构建智能未来的“根节点”

突破一：全模态嵌入模型 Gemini Embeddings 2

突破二：气象预测神经网络模型

突破三：世界模型 Genie

为智能体创造“无限的环境”

随心所欲改变世界的 Genie 3

全新的前沿

相关推荐

蚂蚁灵波开源四款具身智能模型：从物理交互出发，探索世界模型新路径

2026年开源LLM选型指南：从模型规模到架构实战，打造安全可控的AI应用

AI智能体重塑学术评审：从审稿辅助到研究范式变革的深度剖析

摩尔线程LiteGS技术斩获SIGGRAPH Asia银奖：3D高斯溅射重建效率突破性提升

Claude企业版发布即遭开源项目“贴脸开大”！托管智能体服务被Mul tica秒跟，网友反应笑不活