视觉感知与主动智能:AI耳机如何重塑人机交互范式

Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件轮廓正逐渐清晰。供应链信息显示,这款产品并未配备屏幕,形态更接近可穿戴设备:体积与 iPod Shuffle 相仿,便于放入口袋或随身佩戴;内置麦克风与摄像头,可持续感知用户所处的真实环境,并主动提供建议。

在“无屏、主动式 AI”这条赛道上,中国公司已率先迈出步伐。

12 月底,光帆科技在北京发布了 Lightwear AI 全感穿戴设备。这是一套由 AI 耳机、智能手表及设计独特的充电盒组成的组合式终端。其中,AI 耳机是全球首款具备视觉感知能力的主动式 AI 耳机。

三款设备实时协同,扮演一位“始终在场”的 AI 助理,与用户一同观察世界,并主动参与日常生活与决策。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

发布会上演示了这样一个场景:一名戴着耳机的女孩在超市拿起一瓶饮料,随口呼唤:“喂,晓帆。”

“在呢。”隐身在耳机里的 AI 助理被唤醒。

“这个在网上咋卖?”女孩问。AI “看”了一眼她手中的商品,识别出名称后随即搜索同款价格——500毫升15瓶装,售价57.9元,更便宜。

在女孩确认后,AI 直接完成了下单。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

类似的主动能力不仅限于购物。耳机盒内置 GPS,当用户快到家时,晓帆会主动提醒取快递。在另一项长任务演示中,用户仅需表达需求,AI 便能主动完成一系列操作并告知结果,中间仅需一两次沟通。

流程从一句“XX问你什么时候有空和王总吃饭”开始。晓帆自动检查日程,发现原定饭局与一场产品会议冲突后,按用户要求调整了会议时间。随后,它继续主动询问是否需要处理机票和酒店:机票按“再早一点”的要求重新预订;酒店则直接按“常住的那一家”预订了两晚。

这些场景勾勒出光帆科技试图构建的主动式 AI 雏形。

发布会后,这家创业公司迅速受到关注。其创始人董红光是小米早期员工(工号第89号),长期负责操作系统与智能化核心工作,几乎贯穿了小米多个关键技术阶段。成立仅一年多,光帆科技便吸引了多家颇具分量的投资机构入局,为“无屏、主动式 AI”路径增添了现实注脚。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

AI 硬件大爆发,被动式 AI 面临挑战

在光帆科技登场之前,仅2025年,全球范围内已密集涌现一批 AI 硬件产品:阿里推出夸克 AI 眼镜,字节加码 AI 耳机与 AI 手机,同时还有 AI Pin、戒指、项链、手环等形态各异的新设备。

AI 正加速脱离屏幕,寻找新的“肉身”。这场“物种大爆发”并非偶然。

一方面,大模型能力持续跃迁,已能支撑复杂场景的理解与长链路任务的稳定执行(如 AI Agent);响应速度进入“1秒俱乐部”,交互体感逼近真人对话。另一方面,推理与部署成本持续下探,叠加中国在制造与供应链上的系统性优势,让中国玩家在这一轮竞赛中尤为活跃。

但问题同样清晰。

大多数 AI 硬件虽已足够贴身,却并非“始终在场”;看似随时可用,却仍需等待明确指令。这依然是一种被动式智能,存在认知摩擦。

例如,用户需要先掏出手机、打开 App,再用近乎“产品经理式”的方式,将真实需求拆解为一段段包含关键词的 Prompt;或者,只有在主动提问“这是什么?”时,AI 眼镜才会启动识别并反馈。耳机则高度依赖语音唤醒和明确指令。

主动式智能旨在消除这种负担。它会持续进行云端计算,感知并理解用户所处情境(“你现在在超市”)与记忆(“你记得要买果汁”),在合适时机(“你路过商店”)主动介入——在用户开口前提醒:“别忘了,顺手买果汁。”

事实上,谷歌的 Project Astra 一直尝试构建这样一个主动的 AI 助手:拥有眼睛、耳朵和声音,能够与用户共处、理解其正在经历的世界。这与光帆科技所追求的、带有“活人感”的 AI 助理——全天候、全感知、主动智能——在理念上高度一致。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

不同的是,Project Astra 尚未脱离手机;而光帆科技的选择,是让 AI 不再依附于手机,建立新的交互范式。那么,这样的 AI 硬件应如何搭建?

他们从“AI 需要感知什么、如何感知”出发,逐步决定是否做加法以及如何加。

“看得见”,是主动智能的门票

在硬件形态上,光帆科技没有选择在现有手机上做加法,也未采用更主流的眼镜形态,而是“改造”耳机,为其装上摄像头。这一看似反直觉的选择背后,是其清晰认知:视觉感知是主动智能的门票。

要做到随时看、随时听、随时与用户交流,手机和眼镜很难满足。

手机为触控交互而生,依赖显式唤醒和用户将注意力集中于屏幕,这从根本上限制了 AI 的“持续观察力”。且手机大部分时间置于口袋,无法主动感知,用户也无法随时与之交流。

眼镜看似更自然,备受 AI 大厂和初创公司青睐,但从长期看也非“最优解”。首先,用户接受度有限,许多非近视人群无戴镜习惯,且设备较重。技术层面,精密结构下,电池容量、重量、功耗(尤其叠加 AR 后)难以平衡。一旦进入“持续视觉扫描”状态,摄像头正对路人,隐私与伦理压力几乎不可避免。

耳机则不同。用户体量大、接受度高、佩戴自然。为耳机加装摄像头并非简单的硬件堆砌,而是一套围绕感知能力的重构——在耳机已有听觉感知的基础上,于左右耳塞各置一枚 200 万像素摄像头,实现双目视觉感知,并配合充电盒进行辅助定位。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

这里的摄像头拍摄并非供人观看,而是让 AI“看见”,用以理解物理世界的空间与物体,支持“阅后即焚”,无需担心隐私问题。

像素仅为 200 万,实则蕴含重要的“低像素哲学”:更强调“语义理解”而非“光学美感”。AI 无需欣赏 4K 画质的电影,只需能分辨用户手中拿的是橙汁、咖啡还是药品,便已足够。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

关键在于——仅叠加了“视觉感知”,一切便因此不同。因为,视觉是“主动性”的唯一基石。

主动智能的本质在于主动感知环境、理解上下文并预测行动时机。这一能力首先依赖对真实世界空间结构、物体关系与动态变化的持续感知,而这些关键信息只有视觉能够提供。

耳机“双目”的视觉高度恰好与人类视野持平——用户所见即 AI 所见。因此,AI 可以实时理解用户所处情境,建立稳定的世界模型,判断其关注焦点,形成“共同注意力”。

没有视觉,AI 无法真正理解世界;没有世界模型,就不可能有真正的主动协作。语音、记忆、推理等能力,只有嵌入视觉框架,才会产生质变。

例如,当用户路过超市,AI“看到”环境后,其“记忆”模块才能被激活,主动提醒:“该买橙汁了。”当用户看到心仪餐厅并提问“帮我看下这家餐厅怎么样”时,AI 只有“看到”餐厅,才能启动个性化口味比对、附近更优餐厅推荐、准确告知位置等操作。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

从单兵作战到多感官协同:主动智能的必经之路

要实现真正的主动式 AI,仅依赖单一硬件显然不够。

即便是最核心的耳机,也不可避免地存在感知盲区——例如,当用户身体出现异常时,AI 可能无从得知。

然而,一个更现实的挑战在于,人在睡眠、沐浴或刚起床等场景下,并不会持续佩戴耳机;同时,许多关键信息也难以仅凭记忆长期维持。

因此,唯有迈向多感官协同,主动智能才能真正成立,并逐步实现全天候、全感知的状态。基于这一理念,光帆科技在赋予耳机视觉能力之外,还为系统引入了一块智能手表:耳机负责“听”与“看”,手表则承担“显示”与“触控”的职责。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

首先,手表有效弥补了纯语音交互的短板。那些不适合通过声音传递的信息——例如购物验证码、导航路线或简单提示——可以直接在屏幕上呈现,既减少了打扰,也提升了交互效率。

更为关键的是,手表本身是一枚持续工作的身体传感器。若想实现更主动、更个性化的服务,AI必须理解“人”自身的状态,而不仅仅是环境。通过持续采集心率、血氧、睡眠、压力等生理数据,AI才能感知身体变化,并在恰当时刻给出针对性提醒与建议,例如在运动中心率异常升高时主动发出警示。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

与此同时,光帆科技对耳机充电盒进行了功能重构。它内置2020mAh电池、eSIM卡与定制化AI通信协议,可脱离手机直接联网,并集成高精度GPS;同时具备独立算力、麦克风和扬声器。这意味着,即便不佩戴耳机,用户也能通过充电盒与AI进行语音交互。

视觉感知与主动智能:AI耳机如何重塑人机交互范式 视觉感知与主动智能:AI耳机如何重塑人机交互范式
充电盒上的独立麦克风

因此,在沐浴、起床、阅读等“不想戴耳机”的场景中,用户依然可以与AI保持基本互动,例如查询天气或日程安排。

这种分布式协同的设计思路并非孤例。在Meta的Orion项目中,除了智能眼镜本体,还配套了用于读取神经信号的手势追踪腕带,以及一个遥控器大小的计算模块,三者通过无线方式协同工作。腕带能帮助AI更精准地理解用户的手势意图。

由此可见,手表、耳机、眼镜乃至充电盒,并非彼此替代的竞争关系,而是在不同位置、不同维度上,分别承担起AI助理的“感官”与“分身”。它们分工协作、相互补位,最终目标一致:让AI真正“在场”,并主动融入日常生活。

展望未来,设备的物理边界将持续模糊。光帆科技对主动智能的判断是:未来必定是多设备联动,由一个统一的AI大脑进行调度。基于其自研操作系统,公司后续计划接入更多形态的终端,例如智能颈挂、眼镜或项链等。

无人区的艰难跋涉

主动智能不属于单一硬件,而属于一个协同运作的分布式系统。打造这样一套分布式AI硬件,绝非将耳机、手表、充电盒简单叠加,而是一场涉及算力分配、设备间低功耗通信以及人机工程学取舍的极限挑战。

其中最核心的问题是:如何让一个仅重几克的设备,承载起接近大模型的“智能灵魂”?

光帆科技的解决方案是自研一套端云结合的操作系统:Lightware OS。其核心思想并非将所有能力塞进单一设备,而是建立一种类似“生物神经系统”的层级分工与调度机制。

视觉感知与主动智能:AI耳机如何重塑人机交互范式

  • 云端作为最“聪明”、算力最强的“大脑”,负责调用不同的大模型,完成语音与图像理解、意图识别以及复杂推理与决策。例如,结合用户位置、视觉识别的招牌信息及历史评价,判断餐厅类型与口碑。
  • 充电盒具备本地算力,但不负责“深度思考”,其核心是快速响应与稳定兜底。内置4G eSIM保证“永不掉线”,它作为流量调度站,能在毫秒级内判断请求类型(如导航或音乐),并将音视频流快速推送至云端。同时,在网络波动时利用本地算力进行“行为缓冲”,避免交互中断。
  • 耳机则扮演全天候的“感官末梢”,主要负责“听”和“看”,仅运行最轻量的AI任务(如语音唤醒、低像素物体轮廓识别),以极低功耗实现能力的后台“静默运行”,确保随时在场。

另一个棘手挑战是如何把握交互的“分寸感”。一个缺乏边界意识的AI助手,很容易从“贴心”变为“打扰”,最终被用户关闭。因此,在Lightware OS中,系统层必须具备场景判断能力:用户是否忙碌?当前是否适合打断?此次介入是否真正有价值?这种对“干扰优先级”的判断,无法仅靠为大模型编写提示词(Prompt)解决,而必须被深植于系统的底层逻辑中。

如何让这套分布式硬件长期、可靠地作为整体运行,同样是一大工程难题。仅端侧而言,多设备间的实时通信已足够复杂;更进一步,单个设备内部往往集成多颗芯片,芯片间的高效协作直接决定了系统稳定性。这并非“写好一个程序”就能解决,而需在硬件层、驱动层、通信层实现协同优化。

还有硬件工艺上的“极限平衡”。在耳机这种极度受限的形态中加入摄像头,必须同时权衡体积、重量、续航、散热与佩戴舒适度。最终,在加入摄像头和更大容量电池后,光帆科技将单只耳机重量控制在11克,远低于常见智能眼镜约40克的重量,其佩戴舒适度与行业头部的耳挂式耳机相当。

近年来,CES(国际消费电子展)一直是“杀手级AI硬件”想象力的集中展示场。在众多创新方向中,个人穿戴与随身设备始终是焦点,而耳机这一高频入口也正在被重新定义。

2026年1月6日至9日,光帆科技将携全球首款主动式AI耳机亮相CES。下一代AI硬件的演进方向,或许正隐藏在这些看似熟悉、却正被深度重塑的随身设备之中。

视觉感知与主动智能:AI耳机如何重塑人机交互范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16881

(0)
上一篇 2026年1月4日 下午1:24
下一篇 2026年1月4日 下午1:25

相关推荐

  • TRAE年度报告揭秘:AI IDE如何重塑编程范式,从Coder到Commander的进化之路

    TRAE年度报告揭秘:AI IDE如何重塑编程范式 2025年末,TRAE 正式发布了其年度产品报告。 报告开篇便展示了一组引人注目的数据: TRAE在一年里生成了1000亿行代码! 这个数字意味着什么? 若以一名程序员日均编写100行有效代码计算,这相当于300万名程序员全年无休的工作成果。 而这仅仅是《TRAE 2025年度产品报告》的冰山一角。报告还揭…

    2025年12月29日
    16800
  • 2026年AI工具全景指南:从S级通用助手到垂直领域利器

    如果你打算学习一款新的 AI 工具,这份经过实战筛选的清单将是你的最佳起点。 在过去的三年里,我深度体验了数十款 AI 工具,见证了它们的迭代与兴衰。有些工具表现出色,有些则不尽如人意,还有一些已退出市场。 以下是我根据实际使用体验,按类别分级整理出的最佳 AI 工具清单,并附上了详细的学习指南。 S 级:通用性最强,适合所有人使用的核心工具。 A 级:功能…

    2025年12月14日
    9600
  • 本周GitHub热门开源项目盘点:从AI视频编程到多智能体协作,开发者必看!

    01 编程的方式做视频 Remotion 是一个允许你使用 React 以编程方式创建视频的开源项目。它将视频制作过程转化为编写代码的过程,与传统的视频剪辑软件截然不同。 该项目利用 HTML、CSS、SVG、Canvas 和 WebGL 等标准 Web 技术来生成视频画面,并通过编程逻辑(如循环、变量和 API 数据获取)来控制动画和内容的生成,其核心亮点…

    6天前
    4300
  • GitHub精选:4款颠覆性文档工具,从协作平台到本地AI助手

    文档协作平台 Docs 是一个功能强大的开源文档协作平台,其背景相当硬核,由法国和德国政府联合发起。该项目已在 GitHub 上获得了超过 15.5K 的 Star。 这是一个支持实时协作的文档平台,非常适合用于做笔记、撰写文档或搭建团队知识库。 编辑器采用了流行的块状编辑模式,允许用户随意拖拽段落、图片和表格。在多人同时在线编辑时,你可以实时看到队友的光标…

    2026年1月24日
    2100
  • Video2X:AI驱动的视频无损超清修复神器,让老旧影像重获新生

    随着显示器分辨率不断提升,4K甚至更高规格的屏幕已逐渐普及。然而,硬件规格的提升却让低分辨率片源的观看体验问题愈发凸显。 当我们试图重温硬盘中珍藏多年的经典影片时,常常因其仅有360P或480P的原始画质而倍感困扰——画面充满噪点,细节模糊不清,严重影响观感。 针对这一痛点,一款名为 Video2X 的开源工具提供了出色的解决方案。 其核心功能非常专注:运用…

    6天前
    4900