Google I/O 2024:Gemini Omni 开启世界模型,3.5 Flash 编程速度飙升12倍

Gemini App 月活跃用户数已突破 9 亿,每月处理的 Token 量高达 3200 万亿,而 Nano Banana 模型生成的图片总量则超过了 500 亿张。在今天凌晨落幕的 Google I/O 大会上,CEO Sundar Pichai 一开场便亮出了这些数据。过去一年,人工智能成为了所有行业的主旋律,而 Gemini 在 Google 内部的角色,也已从一个独立的应用程序,演变为贯穿所有产品线的核心 AI 底层能力。

本次发布会同样从模型层面切入,进而延伸到编码和 Agent 产品。Gemini Omni 将 Google 的视频生成技术推向了“世界模型”的范畴,而 Gemini 3.5 Flash 则与 AI 编程工具相结合,共同推动 Agent 开发平台的发展。随后,这两项能力被全面整合进 Google 的完整生态系统中,覆盖了搜索、Gemini App、Flow、Spark、Chrome、XR 眼镜以及电商等场景。

Gemini Omni 登场,视频界的“Nano Banana”时刻来了

发布会最先重点展开的是 Gemini Omni。我们制作了一组它与 Seedance 2.0 的对比视频,以便直观展示两者的差异。Google 将 Gemini Omni 描述为一个能够“从任何输入创造任何内容”的新型模型。它融合了 Gemini 的推理能力与 Google 现有的生成式媒体模型,旨在提升对世界的理解、多模态生成以及编辑能力。

Google 强调,尽管 Veo、Nano Banana、Genie 等模型已经能够生成视频、图片和交互式模拟,但 Gemini Omni 更进一步,开始处理动能、重力等更贴近真实物理世界的问题。发布会现场演示的案例包括一个解释蛋白质折叠过程的视频。用户只需输入类似“生成一个关于蛋白质折叠的黏土动画解释”的提示,Omni 就能将抽象的科学概念转化为生动的视频内容。

它还支持更为自然的视频编辑方式。用户可以上传自己的视频,然后通过对话的形式来修改风格、添加元素、调整细节,甚至能将一个普通的圆形变成黑洞,或将夜晚散步的场景渲染得更具戏剧性。

Google 表示,Gemini Omni 将从视频领域起步,逐步迈向“任意输入到任意输出”的目标。这也是 Google 从一开始就将 Gemini 设计为多模态模型的原因。首个 Omni 系列模型 Gemini Omni Flash 已上线至 Google 产品中,关于 Omni Pro 的更多信息将在后续公布。Gemini App 中的 Omni 功能也已面向 Google AI Plus、Pro 和 Ultra 订阅用户开放。

这意味着,Gemini Omni 不仅仅是一个视频生成模型。Google 试图将其纳入“世界模型”的叙事框架:模型不仅要生成画面,更要理解画面中的物理关系、运动逻辑和场景逻辑。在进入 Gemini App、Google Flow 和 YouTube Shorts 等应用后,Omni 也将使 Google 的生成式创作工具从图片编辑扩展到视频编辑领域。

Gemini 3.5 Flash 上线,AI 写代码进入极速模式

如果说 Gemini Omni 对应的是生成与编辑,那么 Gemini 3.5 Flash 则对应着速度、成本与执行能力。

Google 在发布会上推出了 Gemini 3.5 Flash,称其为 Gemini 3.5 系列的首批模型之一,重点面向 agentic coding、长周期任务和真实工作流。与 3.1 Pro 相比,3.5 Flash 在几乎所有基准测试中都取得了显著提升,尤其是在代码能力以及 GDPVal 这类更贴近真实经济任务的评测中表现突出。

除了基准测试的优异表现,3.5 Flash 在输出 tokens 的速度上比其他前沿模型快 4 倍,在 Antigravity 中经过专门优化后,速度更是可以达到 12 倍。值得一提的是,今年 3 月,Google 内部开发相关任务每天处理约 5000 亿 tokens,此后每隔几周翻倍,目前已经超过每天 3 万亿 tokens。Google 将此称为一个反馈循环,通过大规模的真实使用来持续改进 3.5 Flash。

与模型同步推出的是 Antigravity 2.0。它从原来的 agent powered IDE 升级为一个独立的桌面应用,重点转向了 agent first。用户不再仅仅让 AI 在编辑器里辅助写代码,而是通过 Agent 对话、Agent 产物以及多 Agent 协同来完成开发任务。

Antigravity 2.0 加入了完整的 CLI、Antigravity SDK、Gemini 音频模型的原生语音支持,并集成了 Android、Firebase、Google AI Studio 等服务。作为一款独立的桌面应用,Antigravity 2.0 也已面向全球用户开放。Google 在现场通过一个高强度的演示解释了 Antigravity 2.0 的方向:让 Agent 从零开始构建一个可运行的操作系统。这个任务由 93 个子 Agent 并行执行,持续了 12 小时,发起了超过 1.5 万次模型请求,处理了 26 亿 tokens,从空项目开始生成了调度器、内存管理、文件系统等核心模块。

Google 称,这件事在 Gemini 3.1 Pro 上无法完成,而使用 Gemini 3.5 Flash 消耗的 API credits 不到 1000 美元。现场还演示了这个系统运行 SL 小火车程序和 Doom。由于系统最初缺少视频和键盘驱动,Antigravity 又继续生成了相关代码并修复了问题,最终让 Doom 得以运行。Google 还表示,类似的方法已经测试过照片编辑套件、实时消息应用、多用户协作平台等项目,原本需要多天的工程工作被压缩到了数小时甚至更短。Gemini 3.5 Flash 现已面向所有用户开放,覆盖 Google 产品和 API。Gemini 3.5 Pro 仍在内部使用和改进中,预计下个月开放。

从搜索框到信息 Agent,Google 重做 AI 搜索

模型和开发工具之后,Google 将重点转向了搜索。Google 搜索,就是 AI 搜索。

Google 表示,AI Mode 的月活跃用户已经超过 10 亿,查询量自推出以来每季度翻倍。从今天起,AI Mode 升级到了 Gemini 3.5。新的智能搜索框也从当天开始推送。它支持文本、图片、文件和视频输入,并在用户输入问题时给出 AI 建议。

AI Overviews 和 AI Mode 也被合并成更连续的 AI 搜索体验。用户可以先在主搜索结果页看到 AI 回答,再进入 AI Mode 继续追问,上下文会被保留。这个新的搜索体验已在发布会当天面向全球桌面端和移动端上线。

更大的变化是搜索 Agent。今年夏天,用户将可以在 Search 中创建信息 Agent,让它持续跟踪某类信息。例如,用户可以让它监控市盈率低于 15、现金流为正、负债较低的大型生物科技股票;也可以让它长期跟踪租房信息、球鞋联名和商品上新。当条件变化时,Agent 会给用户发送综合更新。

Google 还将 Antigravity 的 agentic coding 能力带入了搜索。之后,搜索不仅会返回网页、摘要或卡片,也能为具体问题生成交互界面。比如用户问“黑洞如何影响时空”,Search 可以生成一个交互式视觉组件;继续追问“双黑洞如何产生引力波”,Search 会重新生成一个可调参数的动态界面。Generative UI with Antigravity 将在今年夏天面向所有用户免费推出。

更复杂的自定义体验也已经在路上。Google 现场展示了一个周末计划器,Search 会结合天气、地图、用户偏好、Gmail、Calendar 等信息,生成一个可以继续修改、分享和同步日历的小型工具。这类自定义体验将在未来几个月先面向订阅用户开放。

关机也能跑,Gemini Spark 把 Agent 能力搬进个人生活

消费端最重要的新产品是 Gemini Spark。

Gemini Spark 是一个个人 AI Agent,运行在 Google Cloud 的专用虚拟机上,可以全天候执行任务。它由 Gemini 3.5 和 Antigravity harness 驱动,支持长时间后台任务。即使用户关掉电脑,Spark 仍能继续工作。它首先接入了 Google 自家工具,未来几周会通过 MCP 接入第三方工具。

发布会展示了 Spark 的几个典型场景。用户可以让它汇总过去一周 Gemini Live 的发布和进展,从 Docs、Gmail 和聊天记录里提取信息,再用个人写作风格生成团队邮件。也可以让它管理街区派对,维护 Google Sheets RSVP 表格,跟踪谁带了什么东西,给没报名的邻居生成提醒邮件草稿,并自动生成 Google Slides 宣传页。

Spark 还支持手机端语音输入。用户可以一次说出多项任务,比如把所有与 Sundar 的会标成亮粉色,给新邻居写邀请信,创建孩子学年结束前待办文档。Spark 会将这些内容分解成多个独立任务,并在后台执行,结果可以在手机和电脑之间同步。Gemini Spark 本周面向部分测试者开放,下周以 beta 形式面向美国 Google AI Ultra 订阅用户推出。

Google 同时推出了每月 100 美元的新 Ultra 计划,并将最高档 Ultra 计划从每月 250 美元降至 200 美元。今年夏天晚些时候,Spark 将进入 Chrome,成为能在网页中执行任务的智能体浏览器。

Gemini App 大改版,还有 Google 版“AI 晨报”

Gemini App 本身也迎来了一次脱胎换骨的大改版。Google 引入了全新的设计语言 Neural Expressive,加入了流体动画、鲜艳色彩、新字体和触觉反馈。新版 Gemini App 不再将回答呈现为大段文字,而是会根据内容实时生成更适合阅读和操作的布局,包括交互图片、时间线、嵌入式视频等。Neural Expressive 现在已经在 Android、iOS 和网页端全球推送。

Gemini Live 也被重做,打开后可以直接进入实时对话。区域口音选择将在未来几周推出。Gemini App 还加入了 Daily Brief。这是一个面向早晨使用的个性化摘要 Agent,会综合 Gmail、Calendar、Tasks 等信息,整理用户当天需要关注的事项,并给出下一步行动入口。Daily Brief 今天起面向美国 Google AI Plus、Pro 和 Ultra 订阅用户推出。

在更大的 Gemini 叙事之外,Google 也更新了几个日常产品。Google Maps 最近完成了十年来最大的一次升级,并加入了 Ask Maps。它允许用户提出更长、更复杂的问题。例如,发布会举了一个场景:孩子掉进鸭塘,婚礼 30 分钟后开始,用户想知道哪里可以步行买到新裙子。

Docs 也获得了新的语音创建能力。用户不需要输入精确的提示词,可以直接用语音把想法说出来,让 Gemini 从 Drive 调取简历,从 Gmail 找到活动信息,再生成 Google Docs 草稿。这个能力将在今年夏天面向 Pro 和 Ultra 订阅用户推出,同类语音能力也会进入 Gmail。

生成能力升级后,内容来源识别也变得愈发重要。Google 称,SynthID 推出三年来,已为超过 1000 亿张图片和视频,以及相当于 6 万年时长的音频加上了不可见水印。接下来,SynthID 和内容凭证验证会扩展到 Search 和 Chrome。用户可以通过圈选搜索,或者在 Chrome 中右键询问内容是否由 AI 生成,系统会显示内容来自 AI、相机,还是曾被生成式 AI 工具编辑。Google 还宣布,OpenAI、Kakao 和 ElevenLabs 将采用 SynthID 2。此前英伟达已经加入了 SynthID 体系。对 Google 来说,SynthID 不只是安全功能,也是争取 AI 内容透明标准的一部分。

Google 创作全家桶,开始围攻图片、设计和视频

在创意工具领域,Google 密集发布了多款重磅产品。Google Pics 是 Google Workspace 中的新图片创建和编辑产品,面向派对海报、信息图、宣传图等场景。用户可以从一张基础图开始,删除元素、调整对象大小、编辑文字和翻译文字。Pics 生成的内容会带有 SynthID 水印。Google Pics 将在今年夏天推出。

设计产品 Stitch 也迎来了更新。用户可以通过一句 prompt 生成网站或应用界面,再通过文字或语音继续修改,比如放大标题、调整菜单、突出更多披萨选项。Stitch 支持将设计导出为代码,或直接发布网站,相关更新现已发布。

Google Flow 的更新尤为值得关注。Gemini Omni 进入 Flow 后,用户可以基于原始视频改变环境、添加视觉效果、加入新角色,同时尽量保留原有的表演。Flow 还加入了新的 Agent,支持一次执行多个动作。比如从单张图片生成 16 个不同机位的视频,或把一组清晨场景批量改成深夜场景。

Flow Tools 则允许用户在 Flow 中创建自己的创意工具,比如视频特效、手绘动画和文字分层工具,并支持分享和 remix。Google Flow Music 可以把一段钢琴 riff 扩展成带风格方向的音乐 demo。Google Flow 和 Google Flow Music 的这些新功能已上线。

押注智能眼镜,Google 再闯下一代入口

在硬件部分,Google 也将 Android XR 这个操作系统级平台,从 XR 头显设备进一步扩展到了智能眼镜形态。Android XR 是 Google 与三星合作,并针对 Qualcomm Snapdragon 优化的平台。

Google 表示,AI 眼镜会分为两类:一类是带小型镜片的显示眼镜,另一类是音频眼镜。显示眼镜去年已在 I/O 上展示,今年首批开发者已经开始创建显示体验,可信测试者计划将在今年晚些时候扩大。更早上市的是音频眼镜。首批音频眼镜将在今年秋季推出,由三星参与硬件和体验构建,Warby Parker 与 Gentle Monster 负责眼镜设计。这些眼镜连接手机,支持 Android 和 iOS。Gemini 的回答通过耳机私密播放,而不是显示在镜片上。

发布会上,演示者可以通过眼镜让 Gemini 导航到上周和朋友见面的地方,中途加入咖啡店;也可以让 Gemini 打开 DoorDash 自动下单咖啡,等待用户确认;还可以让它总结静音消息,并把家庭晚餐写入日历。眼镜还可以与手表配合,让用户拍摄现场照片,并用 Nano Banana 生成卡通图像,再在手表上预览。

发布会最后,Gemini 的使用场景也延伸到了网络安全领域。Google 介绍了 CodeMender。它是一个代码安全 Agent,能够自动寻找和修复关键软件漏洞。Google 将邀请一批专家测试 CodeMender API,之后会更广泛地推出。

整场发布会看下来,信息量大到让人有些应接不暇。只是,当这些 AI 功能真正开放给几千万、几亿人使用时,一个最现实的算账问题就直接摆在了面前:这笔庞大的算力开销,Google 要怎么挣回来?

过去二十多年,Google 代表的是一种典型的免费互联网模式。用户用注意力和数据换取服务,Google 则通过广告和分发来赚钱。这套模式让 Google 成为了互联网时代最强的基础设施公司。但大模型推理的成本,与查询一次搜索结果完全不在一个量级。长上下文记忆、多模态生成、跨应用 Agent、企业级自动化,这些能力背后都是持续运行的算力消耗。AI 越深入,Google 就越难继续用“免费功能升级”的方式来消化成本。这就是为什么整场发布会下来,Google I/O 看似在讲体验升级,背后指向的却是订阅、企业合同、算力账单和长期服务费。

免费入口当然不会消失,因为那仍然是 Google 获取用户、数据和生态位置的基础。但在这些入口之上,Google 正在叠加一个新的智能服务层:更强的模型、更长的记忆、更深的系统权限、更复杂的任务执行,以及更稳定的企业级服务。换言之,Google 正在从一家免费的互联网服务公司,进一步转变为一家 AI 订阅基础设施公司。

只是,问题也随之而来:用户愿意为搜索付费吗?通常情况下,不会。可是,如果这是一个能替你全天候处理邮件、统筹任务、分析报表、接管智能家居,甚至还能帮你写代码开发 App 的“超级全能助理”呢?你愿意为它每月掏出几十上百美元吗?这,正是今年 Google I/O 迫切想要验证的核心商业命题。而环顾如今狂热的市场,答案似乎早已不言而喻。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35608

(0)
上一篇 1小时前
下一篇 2025年12月1日 下午12:39

相关推荐

  • RunAnywhere:让大模型在手机端实现完全本地化推理,隐私与性能兼得

    今天介绍一个可以在手机本地运行的大模型项目。基于它,开发者成功在iPhone 16 Pro Max上部署了Llama 3.2 3B模型,实现了端到端的本地工具调用。 完全本地化的AI处理 这个项目最大的亮点是所有AI处理都在设备本地完成。LLM推理、工具调用决策、响应解析全部在iPhone上进行,只有在需要外部数据时才调用Foursquare API获取餐厅…

    2026年1月27日
    1.2K00
  • 具身智能新突破:开普勒发布原生全感知力触数采系统,破解数据采集瓶颈

    编辑|杜伟 本月,具身智能领域迎来重要进展:硅谷独角兽公司 Generalist AI 发布了新一代基础模型 GEN-1。该模型在执行机器人包装手机、折叠纸箱等任务时,平均成功率提升至创纪录的 99%,其中折叠纸箱的速度更是提升至原先的三倍(从 34 秒缩短至 12.1 秒)。 支撑这一突破的,除了模型架构的重新设计,还有一套规模庞大的数据底座——超过 50…

    2026年4月13日
    61700
  • DeepSeek V4正式发布:1.6T参数模型性能对标顶级闭源,Agent能力成最大亮点

    星期五中午,本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然正式发布并开源了 V4 系列模型预览版。一上来就是王炸级别,而且双双标配百万 token 上下文: 参数量达 1.6T 的 DeepSeek-V4-Pro(49B 激活参数)284B 参数的 DeepSeek-V4-Flash(13B 激活参数)即日起可在官网 chat.deepse…

    2026年4月24日
    1.5K00
  • Dual-Flow:颠覆传统对抗攻击范式,实现多目标多模型黑盒攻击新突破

    在人工智能安全领域,对抗攻击一直是研究的热点与难点。近日,清华大学与蚂蚁数科联合在NeurIPS 2024会议上提出的Dual-Flow框架,为这一领域带来了革命性的突破。该框架通过创新的双流结构和训练机制,实现了对多种模型、多种类别的黑盒攻击,且无需依赖目标模型结构或梯度信息,为AI模型的安全性评估与防御体系构建提供了全新的视角与工具。 Dual-Flow…

    2025年12月15日
    39600
  • Self-E框架:无需教师蒸馏,实现任意步数高质量文生图

    尽管扩散模型与流匹配方法已将文本到图像生成推向了更高的视觉质量与可控性,但它们通常在推理时需要数十步网络迭代,这限制了其在需要低延迟或实时响应的应用场景中的潜力。 为了降低推理步数,现有方法通常依赖于知识蒸馏:首先训练一个多步的教师模型,然后将能力迁移到少步的学生模型。然而,这条路径的代价同样显著——它既依赖于预训练的教师模型,又引入了额外的训练开销,并且在…

    2026年1月15日
    34500