
新智元报道
编辑:元宇
【新智元导读】 Google DeepMind 发布实验原型“AI-enabled pointer”,键盘、鼠标、触屏之后,下一代交互正在成形。
那个陪伴了你 50 年、从未改变过的鼠标指针,即将拥有“大脑”。
自 1970 年代诞生以来,鼠标指针几乎没有任何进化。它出现在每一个网站、每一份文档、每一套工作流程中,却从未真正理解过你在做什么。
近日,Google DeepMind 发布了一篇研究博客,展示了由 Gemini 驱动的实验性原型“AI-enabled pointer”,并在 Google AI Studio 中开放了两个实验性的 Demo。

负责这个项目的研究员 Adrien Baranes 和 Rob Marchant 在官方博客中写道:“我们正在开发更无缝、更直观地与 AI 协作的方式。”

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
DeepMind CEO Demis Hassabis 更是亲自发帖,称这次体验“相当神奇”。

鼠标的图标没有变,但箭头背后的逻辑已经彻底改变:它不再只知道你指向哪里,而是开始理解你想干什么。
目前,这个原型已经可以在 Google AI Studio 中体验,并开放了两个 Demo:编辑图片(AI-Pointer: Create)和地图找地点(AI-Pointer: Find)。

“AI-Pointer: Create”入口:https://aistudio.google.com/apps/bundled/ai-pointer-create
DeepMind 官方视频:鼠标指针,一个被遗忘的东西。

AI 应该来找你,而不是你去找 AI
你每天浪费多少时间在“解释上下文”上?
想想这个你每天都在重复的场景:
打开 ChatGPT 或 Gemini 等 AI 工具的对话窗口;切回你正在看的网页或文档,选中那段你想分析的内容,复制;切回 AI 窗口,粘贴。再用一两句话解释你要什么。等待。拿到结果;再切回去执行……
每一次“切窗口→复制→解释→等待→切回来”,都是一次认知中断。
你在 AI 那里花费的大量时间,其实并没有用在真正的问题上,而是用在了“告诉 AI 你在看什么”。
DeepMind 对这个问题的判断非常精准:
通常,AI 工具住在自己的窗口里,用户需要把自己的世界拖进去。我们想要的恰恰相反:AI 应该来找你,而不是你去找 AI。
这句话,点透了过去两年 AI 交互模式最核心的结构性缺陷。

不用提示词,指着说 AI 就懂
AI-enabled pointer 要解决的,正是这类摩擦。Adrien 认为这个项目的核心命题只有一个:
如何构建一个能真正理解流动用户意图的系统。
这背后有四个设计原则,构成了这套系统的骨架,共同回答一个问题:怎么让 AI 读懂你的意图,而不需要你花力气解释。
第一个原则叫“Maintain the flow”,保持流畅。
按 DeepMind 的设计目标,AI 能力不应把用户带离当前应用,而应尽可能出现在用户正在工作的上下文中。指着一份 PDF 说“给我一个摘要,直接可以粘进邮件的那种”,AI 完成,你继续。
第二个原则叫“Show and tell”,指给它看。现在用 AI,你需要写一段详细的提示词,描述你要处理的内容是什么、长什么样、上下文是什么。
AI-enabled pointer 把这一步省掉了。光标悬停在哪里,Gemini 就捕获那里的视觉信息和语义上下文。你不需要描述你看到的东西,因为 AI 已经看到了。
第三个原则,是 DeepMind 最喜欢强调的一个:“Embrace the power of This and That”,拥抱“这个”和“那个”的力量。
想想人和人之间怎么协作。你不会跟同事说“请将第三行第二列的数值乘以二并更新到对应的汇总表格里”。你会说“这个数字,改成两倍,更新到那里”,然后用手指一指。
AI-enabled pointer 要让人机协作变得像人与人协作一样自然。技术实现上,可以理解为,系统不再只解析语音里的文字,而是把“this”“that”“here”“there”这类指代词,与光标或手势所指向的视觉和语义上下文关联起来。
所以,当用户说“把这个便签改成橙色”时,“这个”不再只是一个模糊代词,而会被系统结合当前指向的位置、对象和上下文来理解。Gemini 拿到的也不只是字面上的一句话,而是由语音、指向和屏幕内容共同构成的意图。
提示词的本质一直都不是文字,而是意图。现在,意图终于可以用最短的方式传达了。
更有意思的是,“指向”并非只有鼠标一种方式。演示里,Adrien 用的是头部追踪:头转向哪里,AI 注意力就跟到哪里。语音、文字、图像理解,全部同时在线。
第四个原则最有技术含量:“Turn pixels into actionable entities”,让像素变成可操作的实体。
过去 50 年,光标只知道你指的是哪里,却看不懂你指的是什么,AI-enabled pointer 要改变这件事。
你悬停的那张图里有一栋建筑,AI 识别出“这是一个地点”,于是“给我导航”成了一个可以直接触发的操作;
你拍下一张手写便条,AI 看懂了上面的字,便条自动变成了一份可编辑的待办清单;
你在旅游视频里暂停了一帧,画面里那家看起来不错的餐厅,直接可以弹出订位链接。
演示里还有一个细节让人印象很深:Adrien 指着一份餐厅菜单,再指着另一张风格参考图,说“用这张图的风格,帮我把这份菜单画出来”。
Gemini 同时读懂了菜单的内容和参考图的视觉风格,生成了一张融合两者的新图。这不是两步操作,是一句话、两个手势,完成的事。
像素第一次有了语义。

从概念到落地
DeepMind 并没有停在概念层面。
Google 表示,相关交互原则已开始进入产品:在 Chrome 中,用户可以用指针指向/选择网页中的内容,并向 Gemini 提问。
Googlebook 上的 Magic Pointer 已被 Google 列为即将推出的系统级能力,首批 Googlebook 设备计划于今年秋季上市。
当然,从演示到日常可用,还有一段路要走。
识别准确率、跨应用兼容性、响应速度,都需要在真实的复杂桌面环境里经历打磨。
还有一个问题值得认真对待:AI-enabled pointer 需要持续理解你的屏幕内容,数据如何采集、如何存储、流向哪里,DeepMind 目前尚未详细说明。
这些并非障碍,而是一项新交互范式从实验室走向大众必须经历的过程。
每一项改变交互方式的技术,都经历过这个阶段。触屏手机在第一代 iPhone 发布时,也没有人敢保证它能取代键盘。

键盘 1973,鼠标 1984,触屏 2007,下一代交互在 2026
把这只指针放回 50 年人机交互史的时间线上,它的意义会变得很清楚。
1973 年,Xerox Alto 把图形界面、位图显示和鼠标等现代桌面交互雏形带入实验系统。
1984 年,Macintosh 让鼠标与图形界面进入大众视野,人开始用“指”图标完成操作。
2007 年,iPhone 让手指直接成为主要输入方式,触屏成为移动计算的核心交互。
每一次跃迁,背后都是同一件事:机器学会了更多,人需要学的就变少了。
2022 年之后的提示词框是另一条线。
人把意图翻译成自然语言,递给一个对话框,再等机器返回答案。表达带宽变宽了,但表达环节本身没消失。你还是要打字、描述。
2026 年这只指针,试图压缩的是“解释上下文”这一步,而不是完全消灭表达本身。
手势、语音与语义理解的协同运作,使得意图表达从“精确描述”进化为“自然指向”:人类依然需要表达,但再也不用费力解释“我在看什么”了。

前四代交互都属于“人主动表达”的范畴,而这一代首次实现了“机器主动理解”。手势、语音与语义理解的协同运作,让意图传达方式从“精确描述”转变为“自然指向”。在这一范式中,提示词工程几乎失去了存在的必要。
Adrien在视频结尾描绘了他设想的未来:
一种全新形态的操作系统。AI主动呈现我可能感兴趣的内容,我通过指向来回应它。我们共享注意力,共享画布,就像与另一个人并肩工作。
AI交互的终极形态,并非一个更智能的搜索框,而是一个真正能与你协作的伙伴。
最好用的工具,往往是你忘记它存在的那一个。
鼠标陪伴了人类50年。下一个50年,它或许将真正开始理解你。
参考资料:
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34826

