Google DeepMind研究副总裁Raia Hadsell揭秘:超越语言模型的三大前沿突破,构建智能未来的“根节点”

“我们正在思考 Gemini 下一个要使用的架构是什么?有哪些问题是只有 AI 才能真正解决的?以及我们该如何构建智能的未来?”近日,Google DeepMind 研究副总裁 Raia Hadsell 在一场演讲中,分享了团队在前沿 AI 领域的核心思路与关键突破。

Raia Hadsell 师从 AI 先驱 Yann LeCun,于 2010 年 DeepMind 初创时期加入,至今已 13 年。她目前协助管理约 1200 名科学家与工程师,并担任“英国 AI 大使”,致力于弥合产业、学术与政府间的协作。在演讲中,她强调团队更专注于寻找和解决能产生深远影响的 “根节点”问题,而非停留在表面的“叶子”问题上。其目标是深入探索宏大的未解问题空间,通过解决最核心的难题来带动广泛的下游影响,并负责任地构建造福人类的 AI。

基于此思路,Raia 重点介绍了三个不直接属于语言模型的前沿突破:


突破一:全模态嵌入模型 Gemini Embeddings 2

在高级模型领域,嵌入模型(Embedding Models) 是生成式 AI 至关重要的伙伴。其设计灵感来源于神经科学中的“特定概念细胞”(如“詹妮弗·安妮斯顿细胞”),即一小簇神经元会对特定的人、物或概念产生响应,且这种响应是跨感官模态(如名字、照片、声音)且高度鲁棒的。

受此启发,AI 中的嵌入模型旨在对概念进行编码,实现快速的跨模态检索、识别与比对。Google 团队近期发布的 Gemini Embeddings 2 实现了理想的 全模态(Omnimodal) 能力。它基于 Gemini 模型的世界知识,能够将文本(最高 8K token)、128 秒视频、80 秒音频以及完整 PDF 文档,统一编码为单一的语义向量

这种统一的多模态表示避免了分步整合导致的信息丢失,实现了真正的端到端处理。结合 “俄罗斯套娃表示学习”(MRL) 技术,该模型能在同一网络中支持不同维度的嵌入(如先用 256 维进行快速检索,再扩展至高维以获得更强表达力),从而构建出统一的语义空间,在检索、查询和智能体逻辑等任务中达到顶尖水平。


突破二:气象预测神经网络模型

天气预报是另一个 AI 展现非凡能力的领域。当被问及“能否用 AI 做出比物理模型更准确的降雨预测”时,DeepMind 团队开始了探索。他们发现,利用过去 40 年的全球气象数据,神经网络模型在这一任务上极具潜力。

团队开发的 GraphCast 模型,使用球面图神经网络,将地球表面至平流层下层建模为网格。该模型以自回归方式,预测未来 15 天内全球范围内超过 100 种大气变量(如风速、温度、湿度)。

其表现超越了传统物理模型的“黄金标准”。以 2024 年的飓风“李”为例,GraphCast 在 提前 9 天 时就准确预测了其在新斯科舍省的登陆地点,而最先进的物理模型只能在提前 6 天时做出准确预测。对于即将登陆的强飓风,这额外的 3 天预警时间至关重要。


突破三:世界模型 Genie

世界模型 领域,Genie 系列模型取得了令人兴奋的进展。它能够根据简单的提示词或图像,实时生成可交互的 3D 虚拟环境

用户不仅能在这个动态生成的世界中行走、探索,还能通过互动实时改变世界的面貌。例如,一句“我刚刚改变了我所处的世界。我可以再次改变它。看,世界立刻变得不同了”,生动体现了其核心能力。这项技术为游戏、沉浸式娱乐与教育等领域开启了全新的可能性。

基于此,团队决定继续推动科学边界,开发了下一代模型——GenCast。与之前的模型不同,GenCast 虽然同样基于网格,但它是一个概率模型,具备更高的准确度和效率。天气本质上是混沌的,而概率模型能帮助我们理解极端情况下的可能性,使预测更具操作性,从而真正服务于实际气象预报。在准确性方面,GenCast 表现突出:在与 1300 个黄金标准基准预报的对比中,它在 97% 的情况下都更胜一筹。效率的提升同样惊人:现在只需单块芯片,就能在 8 分钟内生成 15 天的天气预报,彻底改变了此前依赖大型超级计算机耗时数小时的解决方案维度。

这支团队持续探索,去年又推出了新技术——FGN(函数生成网络)。这是一个根本性的转变:FGN 直接预测气旋,而非先预报天气再通过后期处理添加气旋检测。它将气旋的分类、识别、轨迹、风速乃至风眼形成直接融入网络进行训练,因此表现优异得多。目前,美国国家飓风中心已开始使用该技术,并对它所带来的优势感到兴奋。团队希望未来几年内,这项技术能在全球范围内得到应用。

为智能体创造“无限的环境”

最后,我想谈谈另一个非语言模型的前沿领域:世界模型。这源于 DeepMind 长期在游戏与模拟环境中的积累,从 Atari、围棋、星际争霸到机器人学的 Mojoko 环境,我们不仅研究智能体行为,也关注其所在的环境。我们越来越聚焦于一个目标:不仅要训练智能体,还要创造“无限的环境”。

早期的 Genie 1 证明了这条路径的可行性。它虽然只能生成运行几秒钟的 2D 平台游戏世界,但能根据文字提示实时生成风格各异的可交互环境。在此基础上,我们开始扩大规模:增加数据、改进方法,并在 3D 游戏上进行训练。

随后开发的 Genie 2 是交互式的,能生成 3D 环境,但运行速度较慢,画质也尚未达到现实世界级别。正当我们致力于改进时,Genie 3 诞生了。

随心所欲改变世界的 Genie 3

Genie 3 带来了质的飞跃。例如,当提示“我想要一个场景,让我正走在肯特郡泥泞的小路上”时,模型不仅生成了逼真的环境,还让你拥有一个身体,能够真实地与世界互动——它理解场景的外观,也理解互动所需的物理特性,比如水如何流动、脚步如何迈出。

它不仅能生成步行场景,还能创造滑雪等多样化的互动环境。更强大的是,Genie 3 支持以视频片段作为提示。我们曾用一位艺术家创作的前几秒视频作为输入,激活 Genie 3 来延展并激活整个世界。艺术家对此感到非常激动,因为他创作的片段被赋予了生命:你可以飞越其中,与物体互动。模型具备“记忆”,能记住场景中的特定元素(比如“奇怪的建筑”),并允许你返回。

这些环境多样、交互性强、质量高,且拥有连贯的记忆。在一个“折纸世界中的折纸蜥蜴”的测试中,你可以跑出一段距离后再返回起点,环境保持完全一致,这体现了出色的记忆一致性,为开发者提供了控制力。

最后,Genie 3 还支持动态提示。当身处一个世界时(例如走在伦敦卡姆登运河边),你可以实时输入新的提示,世界便会立刻随之改变。这种能力可以连续触发,创造出持续变幻的体验。

全新的前沿

这构想了一种全新的娱乐形式:通过“对抗式”提示来改变他人的世界体验。我认为这不仅对游戏,也对教育具有惊人潜力。能够进入一个可交互、可变化的世界进行学习,这种力量极其强大,未来我们必将看到更多此类应用。

我的分享到此结束,谢谢大家。

(附注:明天早上我的同事 Omar 将会介绍 Gemma 4,那是一个语言模型。)


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31139

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • 蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

    大模型的革命行将结束,即将开启的会是物理 AI 时代? 上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。 LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演…

    2026年2月5日
    32200
  • 2026年开源LLM选型指南:从模型规模到架构实战,打造安全可控的AI应用

    到了2026年,关于AI的讨论焦点已经发生了根本性转变。我们早已告别了“聊天机器人演示”的早期阶段。如今,严肃的企业正在构建自己的内部AI解决方案。他们深刻认识到,虽然外部API服务便捷,但公司的核心数据才是最具价值的资产,他们不愿将处理这些数据的关键“大脑”长期租用给外部供应商。 与此同时,技术领域也迎来了一个重大里程碑:开源大语言模型(LLM)的性能已经…

    2026年2月6日
    2.1K00
  • AI智能体重塑学术评审:从审稿辅助到研究范式变革的深度剖析

    在人工智能技术飞速发展的当下,学术论文评审体系正面临前所未有的挑战与机遇。随着全球顶级学术会议如ICLR、CVPR等陆续出台关于大模型使用的审稿规范,AI在学术评审中的角色已从理论探讨进入实践应用阶段。然而,规范与现实之间存在着显著差距——即使在ICLR 2026这样实施“最严管控规则”的会议上,仍有高达五分之一的审稿意见被证实由大模型一键生成。这一现象不仅…

    2025年11月25日
    29400
  • 摩尔线程LiteGS技术斩获SIGGRAPH Asia银奖:3D高斯溅射重建效率突破性提升

    在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级会议上,摩尔线程凭借其自主研发的3D高斯溅射(3DGS)基础库LiteGS,在3DGS重建挑战赛中荣获银奖。这一成果标志着该公司在下一代图形渲染技术领域取得了重要进展。 3D高斯溅射:图形渲染技术的范式变革3D高斯溅射(3D Gaussian Splatting)是2023年提出的一种革命性…

    2025年12月19日
    50200
  • Claude企业版发布即遭开源项目“贴脸开大”!托管智能体服务被Mul tica秒跟,网友反应笑不活

    Claude企业版发布即遭开源项目“贴脸开大” 刚刚,Claude推出“企业版”服务,发布Claude Managed Agents,结果被开源项目迅速跟进。 Claude Managed Agents是一套支持模块化组合的API套件,旨在帮助企业规模化构建和部署云端托管的智能体。它将性能优化的智能体运行框架与生产级基础设施深度整合。 用户只需用自然语言描述…

    2026年4月9日
    36500