“我们正在思考 Gemini 下一个要使用的架构是什么?有哪些问题是只有 AI 才能真正解决的?以及我们该如何构建智能的未来?”近日,Google DeepMind 研究副总裁 Raia Hadsell 在一场演讲中,分享了团队在前沿 AI 领域的核心思路与关键突破。
Raia Hadsell 师从 AI 先驱 Yann LeCun,于 2010 年 DeepMind 初创时期加入,至今已 13 年。她目前协助管理约 1200 名科学家与工程师,并担任“英国 AI 大使”,致力于弥合产业、学术与政府间的协作。在演讲中,她强调团队更专注于寻找和解决能产生深远影响的 “根节点”问题,而非停留在表面的“叶子”问题上。其目标是深入探索宏大的未解问题空间,通过解决最核心的难题来带动广泛的下游影响,并负责任地构建造福人类的 AI。
基于此思路,Raia 重点介绍了三个不直接属于语言模型的前沿突破:
突破一:全模态嵌入模型 Gemini Embeddings 2
在高级模型领域,嵌入模型(Embedding Models) 是生成式 AI 至关重要的伙伴。其设计灵感来源于神经科学中的“特定概念细胞”(如“詹妮弗·安妮斯顿细胞”),即一小簇神经元会对特定的人、物或概念产生响应,且这种响应是跨感官模态(如名字、照片、声音)且高度鲁棒的。
受此启发,AI 中的嵌入模型旨在对概念进行编码,实现快速的跨模态检索、识别与比对。Google 团队近期发布的 Gemini Embeddings 2 实现了理想的 全模态(Omnimodal) 能力。它基于 Gemini 模型的世界知识,能够将文本(最高 8K token)、128 秒视频、80 秒音频以及完整 PDF 文档,统一编码为单一的语义向量。
这种统一的多模态表示避免了分步整合导致的信息丢失,实现了真正的端到端处理。结合 “俄罗斯套娃表示学习”(MRL) 技术,该模型能在同一网络中支持不同维度的嵌入(如先用 256 维进行快速检索,再扩展至高维以获得更强表达力),从而构建出统一的语义空间,在检索、查询和智能体逻辑等任务中达到顶尖水平。
突破二:气象预测神经网络模型
天气预报是另一个 AI 展现非凡能力的领域。当被问及“能否用 AI 做出比物理模型更准确的降雨预测”时,DeepMind 团队开始了探索。他们发现,利用过去 40 年的全球气象数据,神经网络模型在这一任务上极具潜力。
团队开发的 GraphCast 模型,使用球面图神经网络,将地球表面至平流层下层建模为网格。该模型以自回归方式,预测未来 15 天内全球范围内超过 100 种大气变量(如风速、温度、湿度)。
其表现超越了传统物理模型的“黄金标准”。以 2024 年的飓风“李”为例,GraphCast 在 提前 9 天 时就准确预测了其在新斯科舍省的登陆地点,而最先进的物理模型只能在提前 6 天时做出准确预测。对于即将登陆的强飓风,这额外的 3 天预警时间至关重要。
突破三:世界模型 Genie
在 世界模型 领域,Genie 系列模型取得了令人兴奋的进展。它能够根据简单的提示词或图像,实时生成可交互的 3D 虚拟环境。
用户不仅能在这个动态生成的世界中行走、探索,还能通过互动实时改变世界的面貌。例如,一句“我刚刚改变了我所处的世界。我可以再次改变它。看,世界立刻变得不同了”,生动体现了其核心能力。这项技术为游戏、沉浸式娱乐与教育等领域开启了全新的可能性。
基于此,团队决定继续推动科学边界,开发了下一代模型——GenCast。与之前的模型不同,GenCast 虽然同样基于网格,但它是一个概率模型,具备更高的准确度和效率。天气本质上是混沌的,而概率模型能帮助我们理解极端情况下的可能性,使预测更具操作性,从而真正服务于实际气象预报。在准确性方面,GenCast 表现突出:在与 1300 个黄金标准基准预报的对比中,它在 97% 的情况下都更胜一筹。效率的提升同样惊人:现在只需单块芯片,就能在 8 分钟内生成 15 天的天气预报,彻底改变了此前依赖大型超级计算机耗时数小时的解决方案维度。
这支团队持续探索,去年又推出了新技术——FGN(函数生成网络)。这是一个根本性的转变:FGN 直接预测气旋,而非先预报天气再通过后期处理添加气旋检测。它将气旋的分类、识别、轨迹、风速乃至风眼形成直接融入网络进行训练,因此表现优异得多。目前,美国国家飓风中心已开始使用该技术,并对它所带来的优势感到兴奋。团队希望未来几年内,这项技术能在全球范围内得到应用。
为智能体创造“无限的环境”
最后,我想谈谈另一个非语言模型的前沿领域:世界模型。这源于 DeepMind 长期在游戏与模拟环境中的积累,从 Atari、围棋、星际争霸到机器人学的 Mojoko 环境,我们不仅研究智能体行为,也关注其所在的环境。我们越来越聚焦于一个目标:不仅要训练智能体,还要创造“无限的环境”。
早期的 Genie 1 证明了这条路径的可行性。它虽然只能生成运行几秒钟的 2D 平台游戏世界,但能根据文字提示实时生成风格各异的可交互环境。在此基础上,我们开始扩大规模:增加数据、改进方法,并在 3D 游戏上进行训练。
随后开发的 Genie 2 是交互式的,能生成 3D 环境,但运行速度较慢,画质也尚未达到现实世界级别。正当我们致力于改进时,Genie 3 诞生了。
随心所欲改变世界的 Genie 3
Genie 3 带来了质的飞跃。例如,当提示“我想要一个场景,让我正走在肯特郡泥泞的小路上”时,模型不仅生成了逼真的环境,还让你拥有一个身体,能够真实地与世界互动——它理解场景的外观,也理解互动所需的物理特性,比如水如何流动、脚步如何迈出。
它不仅能生成步行场景,还能创造滑雪等多样化的互动环境。更强大的是,Genie 3 支持以视频片段作为提示。我们曾用一位艺术家创作的前几秒视频作为输入,激活 Genie 3 来延展并激活整个世界。艺术家对此感到非常激动,因为他创作的片段被赋予了生命:你可以飞越其中,与物体互动。模型具备“记忆”,能记住场景中的特定元素(比如“奇怪的建筑”),并允许你返回。
这些环境多样、交互性强、质量高,且拥有连贯的记忆。在一个“折纸世界中的折纸蜥蜴”的测试中,你可以跑出一段距离后再返回起点,环境保持完全一致,这体现了出色的记忆一致性,为开发者提供了控制力。
最后,Genie 3 还支持动态提示。当身处一个世界时(例如走在伦敦卡姆登运河边),你可以实时输入新的提示,世界便会立刻随之改变。这种能力可以连续触发,创造出持续变幻的体验。
全新的前沿
这构想了一种全新的娱乐形式:通过“对抗式”提示来改变他人的世界体验。我认为这不仅对游戏,也对教育具有惊人潜力。能够进入一个可交互、可变化的世界进行学习,这种力量极其强大,未来我们必将看到更多此类应用。
我的分享到此结束,谢谢大家。
(附注:明天早上我的同事 Omar 将会介绍 Gemma 4,那是一个语言模型。)
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31139

