鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

新智元报道

编辑：元宇

【新智元导读】 Google DeepMind 发布实验原型“AI-enabled pointer”，键盘、鼠标、触屏之后，下一代交互正在成形。

那个陪伴了你 50 年、从未改变过的鼠标指针，即将拥有“大脑”。

自 1970 年代诞生以来，鼠标指针几乎没有任何进化。它出现在每一个网站、每一份文档、每一套工作流程中，却从未真正理解过你在做什么。

近日，Google DeepMind 发布了一篇研究博客，展示了由 Gemini 驱动的实验性原型“AI-enabled pointer”，并在 Google AI Studio 中开放了两个实验性的 Demo。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

负责这个项目的研究员 Adrien Baranes 和 Rob Marchant 在官方博客中写道：“我们正在开发更无缝、更直观地与 AI 协作的方式。”

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

DeepMind CEO Demis Hassabis 更是亲自发帖，称这次体验“相当神奇”。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

鼠标的图标没有变，但箭头背后的逻辑已经彻底改变：它不再只知道你指向哪里，而是开始理解你想干什么。

目前，这个原型已经可以在 Google AI Studio 中体验，并开放了两个 Demo：编辑图片（AI-Pointer: Create）和地图找地点（AI-Pointer: Find）。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

“AI-Pointer: Create”入口：https://aistudio.google.com/apps/bundled/ai-pointer-create

DeepMind 官方视频：鼠标指针，一个被遗忘的东西。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

AI 应该来找你，而不是你去找 AI

你每天浪费多少时间在“解释上下文”上？

想想这个你每天都在重复的场景：

打开 ChatGPT 或 Gemini 等 AI 工具的对话窗口；切回你正在看的网页或文档，选中那段你想分析的内容，复制；切回 AI 窗口，粘贴。再用一两句话解释你要什么。等待。拿到结果；再切回去执行……

每一次“切窗口→复制→解释→等待→切回来”，都是一次认知中断。

你在 AI 那里花费的大量时间，其实并没有用在真正的问题上，而是用在了“告诉 AI 你在看什么”。

DeepMind 对这个问题的判断非常精准：

通常，AI 工具住在自己的窗口里，用户需要把自己的世界拖进去。我们想要的恰恰相反：AI 应该来找你，而不是你去找 AI。

这句话，点透了过去两年 AI 交互模式最核心的结构性缺陷。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

不用提示词，指着说 AI 就懂

AI-enabled pointer 要解决的，正是这类摩擦。Adrien 认为这个项目的核心命题只有一个：

如何构建一个能真正理解流动用户意图的系统。

这背后有四个设计原则，构成了这套系统的骨架，共同回答一个问题：怎么让 AI 读懂你的意图，而不需要你花力气解释。

第一个原则叫“Maintain the flow”，保持流畅。

按 DeepMind 的设计目标，AI 能力不应把用户带离当前应用，而应尽可能出现在用户正在工作的上下文中。指着一份 PDF 说“给我一个摘要，直接可以粘进邮件的那种”，AI 完成，你继续。

第二个原则叫“Show and tell”，指给它看。现在用 AI，你需要写一段详细的提示词，描述你要处理的内容是什么、长什么样、上下文是什么。

AI-enabled pointer 把这一步省掉了。光标悬停在哪里，Gemini 就捕获那里的视觉信息和语义上下文。你不需要描述你看到的东西，因为 AI 已经看到了。

第三个原则，是 DeepMind 最喜欢强调的一个：“Embrace the power of This and That”，拥抱“这个”和“那个”的力量。

想想人和人之间怎么协作。你不会跟同事说“请将第三行第二列的数值乘以二并更新到对应的汇总表格里”。你会说“这个数字，改成两倍，更新到那里”，然后用手指一指。

AI-enabled pointer 要让人机协作变得像人与人协作一样自然。技术实现上，可以理解为，系统不再只解析语音里的文字，而是把“this”“that”“here”“there”这类指代词，与光标或手势所指向的视觉和语义上下文关联起来。

所以，当用户说“把这个便签改成橙色”时，“这个”不再只是一个模糊代词，而会被系统结合当前指向的位置、对象和上下文来理解。Gemini 拿到的也不只是字面上的一句话，而是由语音、指向和屏幕内容共同构成的意图。

提示词的本质一直都不是文字，而是意图。现在，意图终于可以用最短的方式传达了。

更有意思的是，“指向”并非只有鼠标一种方式。演示里，Adrien 用的是头部追踪：头转向哪里，AI 注意力就跟到哪里。语音、文字、图像理解，全部同时在线。

第四个原则最有技术含量：“Turn pixels into actionable entities”，让像素变成可操作的实体。

过去 50 年，光标只知道你指的是哪里，却看不懂你指的是什么，AI-enabled pointer 要改变这件事。

你悬停的那张图里有一栋建筑，AI 识别出“这是一个地点”，于是“给我导航”成了一个可以直接触发的操作；

你拍下一张手写便条，AI 看懂了上面的字，便条自动变成了一份可编辑的待办清单；

你在旅游视频里暂停了一帧，画面里那家看起来不错的餐厅，直接可以弹出订位链接。

演示里还有一个细节让人印象很深：Adrien 指着一份餐厅菜单，再指着另一张风格参考图，说“用这张图的风格，帮我把这份菜单画出来”。

Gemini 同时读懂了菜单的内容和参考图的视觉风格，生成了一张融合两者的新图。这不是两步操作，是一句话、两个手势，完成的事。

像素第一次有了语义。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

从概念到落地

DeepMind 并没有停在概念层面。

Google 表示，相关交互原则已开始进入产品：在 Chrome 中，用户可以用指针指向/选择网页中的内容，并向 Gemini 提问。

Googlebook 上的 Magic Pointer 已被 Google 列为即将推出的系统级能力，首批 Googlebook 设备计划于今年秋季上市。

当然，从演示到日常可用，还有一段路要走。

识别准确率、跨应用兼容性、响应速度，都需要在真实的复杂桌面环境里经历打磨。

还有一个问题值得认真对待：AI-enabled pointer 需要持续理解你的屏幕内容，数据如何采集、如何存储、流向哪里，DeepMind 目前尚未详细说明。

这些并非障碍，而是一项新交互范式从实验室走向大众必须经历的过程。

每一项改变交互方式的技术，都经历过这个阶段。触屏手机在第一代 iPhone 发布时，也没有人敢保证它能取代键盘。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

键盘 1973，鼠标 1984，触屏 2007，下一代交互在 2026

把这只指针放回 50 年人机交互史的时间线上，它的意义会变得很清楚。

1973 年，Xerox Alto 把图形界面、位图显示和鼠标等现代桌面交互雏形带入实验系统。

1984 年，Macintosh 让鼠标与图形界面进入大众视野，人开始用“指”图标完成操作。

2007 年，iPhone 让手指直接成为主要输入方式，触屏成为移动计算的核心交互。

每一次跃迁，背后都是同一件事：机器学会了更多，人需要学的就变少了。

2022 年之后的提示词框是另一条线。

人把意图翻译成自然语言，递给一个对话框，再等机器返回答案。表达带宽变宽了，但表达环节本身没消失。你还是要打字、描述。

2026 年这只指针，试图压缩的是“解释上下文”这一步，而不是完全消灭表达本身。

手势、语音与语义理解的协同运作，使得意图表达从“精确描述”进化为“自然指向”：人类依然需要表达，但再也不用费力解释“我在看什么”了。

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

前四代交互都属于“人主动表达”的范畴，而这一代首次实现了“机器主动理解”。手势、语音与语义理解的协同运作，让意图传达方式从“精确描述”转变为“自然指向”。在这一范式中，提示词工程几乎失去了存在的必要。

Adrien在视频结尾描绘了他设想的未来：

一种全新形态的操作系统。AI主动呈现我可能感兴趣的内容，我通过指向来回应它。我们共享注意力，共享画布，就像与另一个人并肩工作。

AI交互的终极形态，并非一个更智能的搜索框，而是一个真正能与你协作的伙伴。

最好用的工具，往往是你忘记它存在的那一个。

鼠标陪伴了人类50年。下一个50年，它或许将真正开始理解你。

参考资料：
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34826

鼠标指针长出大脑！Google DeepMind发布AI指针，下一代交互革命来了

【新智元导读】 Google DeepMind 发布实验原型“AI-enabled pointer”，键盘、鼠标、触屏之后，下一代交互正在成形。

相关推荐

从Vibe Coding到工程智能体：InfCode如何突破企业级AI编程的语义定位瓶颈

英伟达NVARC小模型夺冠ARC-AGI 2：零预训练与合成数据策略解析

Superpowers：为Claude Code注入资深工程师思维，终结AI编程的“瞎写”时代

Claude深夜全线宕机10小时！AWS数据中心遭不明物体袭击，全球打工人集体断粮

摩尔线程LiteGS斩获SIGGRAPH Asia银奖：3D高斯溅射技术突破60秒高质量重建极限