视觉感知与主动智能：AI耳机如何重塑人机交互范式

Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件轮廓正逐渐清晰。供应链信息显示，这款产品并未配备屏幕，形态更接近可穿戴设备：体积与 iPod Shuffle 相仿，便于放入口袋或随身佩戴；内置麦克风与摄像头，可持续感知用户所处的真实环境，并主动提供建议。

在“无屏、主动式 AI”这条赛道上，中国公司已率先迈出步伐。

12 月底，光帆科技在北京发布了 Lightwear AI 全感穿戴设备。这是一套由 AI 耳机、智能手表及设计独特的充电盒组成的组合式终端。其中，AI 耳机是全球首款具备视觉感知能力的主动式 AI 耳机。

三款设备实时协同，扮演一位“始终在场”的 AI 助理，与用户一同观察世界，并主动参与日常生活与决策。

发布会上演示了这样一个场景：一名戴着耳机的女孩在超市拿起一瓶饮料，随口呼唤：“喂，晓帆。”

“在呢。”隐身在耳机里的 AI 助理被唤醒。

“这个在网上咋卖？”女孩问。AI “看”了一眼她手中的商品，识别出名称后随即搜索同款价格——500毫升15瓶装，售价57.9元，更便宜。

在女孩确认后，AI 直接完成了下单。

类似的主动能力不仅限于购物。耳机盒内置 GPS，当用户快到家时，晓帆会主动提醒取快递。在另一项长任务演示中，用户仅需表达需求，AI 便能主动完成一系列操作并告知结果，中间仅需一两次沟通。

流程从一句“XX问你什么时候有空和王总吃饭”开始。晓帆自动检查日程，发现原定饭局与一场产品会议冲突后，按用户要求调整了会议时间。随后，它继续主动询问是否需要处理机票和酒店：机票按“再早一点”的要求重新预订；酒店则直接按“常住的那一家”预订了两晚。

这些场景勾勒出光帆科技试图构建的主动式 AI 雏形。

发布会后，这家创业公司迅速受到关注。其创始人董红光是小米早期员工（工号第89号），长期负责操作系统与智能化核心工作，几乎贯穿了小米多个关键技术阶段。成立仅一年多，光帆科技便吸引了多家颇具分量的投资机构入局，为“无屏、主动式 AI”路径增添了现实注脚。

AI 硬件大爆发，被动式 AI 面临挑战

在光帆科技登场之前，仅2025年，全球范围内已密集涌现一批 AI 硬件产品：阿里推出夸克 AI 眼镜，字节加码 AI 耳机与 AI 手机，同时还有 AI Pin、戒指、项链、手环等形态各异的新设备。

AI 正加速脱离屏幕，寻找新的“肉身”。这场“物种大爆发”并非偶然。

一方面，大模型能力持续跃迁，已能支撑复杂场景的理解与长链路任务的稳定执行（如 AI Agent）；响应速度进入“1秒俱乐部”，交互体感逼近真人对话。另一方面，推理与部署成本持续下探，叠加中国在制造与供应链上的系统性优势，让中国玩家在这一轮竞赛中尤为活跃。

但问题同样清晰。

大多数 AI 硬件虽已足够贴身，却并非“始终在场”；看似随时可用，却仍需等待明确指令。这依然是一种被动式智能，存在认知摩擦。

例如，用户需要先掏出手机、打开 App，再用近乎“产品经理式”的方式，将真实需求拆解为一段段包含关键词的 Prompt；或者，只有在主动提问“这是什么？”时，AI 眼镜才会启动识别并反馈。耳机则高度依赖语音唤醒和明确指令。

主动式智能旨在消除这种负担。它会持续进行云端计算，感知并理解用户所处情境（“你现在在超市”）与记忆（“你记得要买果汁”），在合适时机（“你路过商店”）主动介入——在用户开口前提醒：“别忘了，顺手买果汁。”

事实上，谷歌的 Project Astra 一直尝试构建这样一个主动的 AI 助手：拥有眼睛、耳朵和声音，能够与用户共处、理解其正在经历的世界。这与光帆科技所追求的、带有“活人感”的 AI 助理——全天候、全感知、主动智能——在理念上高度一致。

不同的是，Project Astra 尚未脱离手机；而光帆科技的选择，是让 AI 不再依附于手机，建立新的交互范式。那么，这样的 AI 硬件应如何搭建？

他们从“AI 需要感知什么、如何感知”出发，逐步决定是否做加法以及如何加。

“看得见”，是主动智能的门票

在硬件形态上，光帆科技没有选择在现有手机上做加法，也未采用更主流的眼镜形态，而是“改造”耳机，为其装上摄像头。这一看似反直觉的选择背后，是其清晰认知：视觉感知是主动智能的门票。

要做到随时看、随时听、随时与用户交流，手机和眼镜很难满足。

手机为触控交互而生，依赖显式唤醒和用户将注意力集中于屏幕，这从根本上限制了 AI 的“持续观察力”。且手机大部分时间置于口袋，无法主动感知，用户也无法随时与之交流。

眼镜看似更自然，备受 AI 大厂和初创公司青睐，但从长期看也非“最优解”。首先，用户接受度有限，许多非近视人群无戴镜习惯，且设备较重。技术层面，精密结构下，电池容量、重量、功耗（尤其叠加 AR 后）难以平衡。一旦进入“持续视觉扫描”状态，摄像头正对路人，隐私与伦理压力几乎不可避免。

耳机则不同。用户体量大、接受度高、佩戴自然。为耳机加装摄像头并非简单的硬件堆砌，而是一套围绕感知能力的重构——在耳机已有听觉感知的基础上，于左右耳塞各置一枚 200 万像素摄像头，实现双目视觉感知，并配合充电盒进行辅助定位。

这里的摄像头拍摄并非供人观看，而是让 AI“看见”，用以理解物理世界的空间与物体，支持“阅后即焚”，无需担心隐私问题。

像素仅为 200 万，实则蕴含重要的“低像素哲学”：更强调“语义理解”而非“光学美感”。AI 无需欣赏 4K 画质的电影，只需能分辨用户手中拿的是橙汁、咖啡还是药品，便已足够。

关键在于——仅叠加了“视觉感知”，一切便因此不同。因为，视觉是“主动性”的唯一基石。

主动智能的本质在于主动感知环境、理解上下文并预测行动时机。这一能力首先依赖对真实世界空间结构、物体关系与动态变化的持续感知，而这些关键信息只有视觉能够提供。

耳机“双目”的视觉高度恰好与人类视野持平——用户所见即 AI 所见。因此，AI 可以实时理解用户所处情境，建立稳定的世界模型，判断其关注焦点，形成“共同注意力”。

没有视觉，AI 无法真正理解世界；没有世界模型，就不可能有真正的主动协作。语音、记忆、推理等能力，只有嵌入视觉框架，才会产生质变。

例如，当用户路过超市，AI“看到”环境后，其“记忆”模块才能被激活，主动提醒：“该买橙汁了。”当用户看到心仪餐厅并提问“帮我看下这家餐厅怎么样”时，AI 只有“看到”餐厅，才能启动个性化口味比对、附近更优餐厅推荐、准确告知位置等操作。

从单兵作战到多感官协同：主动智能的必经之路

要实现真正的主动式 AI，仅依赖单一硬件显然不够。

即便是最核心的耳机，也不可避免地存在感知盲区——例如，当用户身体出现异常时，AI 可能无从得知。

然而，一个更现实的挑战在于，人在睡眠、沐浴或刚起床等场景下，并不会持续佩戴耳机；同时，许多关键信息也难以仅凭记忆长期维持。

因此，唯有迈向多感官协同，主动智能才能真正成立，并逐步实现全天候、全感知的状态。基于这一理念，光帆科技在赋予耳机视觉能力之外，还为系统引入了一块智能手表：耳机负责“听”与“看”，手表则承担“显示”与“触控”的职责。

首先，手表有效弥补了纯语音交互的短板。那些不适合通过声音传递的信息——例如购物验证码、导航路线或简单提示——可以直接在屏幕上呈现，既减少了打扰，也提升了交互效率。

更为关键的是，手表本身是一枚持续工作的身体传感器。若想实现更主动、更个性化的服务，AI必须理解“人”自身的状态，而不仅仅是环境。通过持续采集心率、血氧、睡眠、压力等生理数据，AI才能感知身体变化，并在恰当时刻给出针对性提醒与建议，例如在运动中心率异常升高时主动发出警示。

与此同时，光帆科技对耳机充电盒进行了功能重构。它内置2020mAh电池、eSIM卡与定制化AI通信协议，可脱离手机直接联网，并集成高精度GPS；同时具备独立算力、麦克风和扬声器。这意味着，即便不佩戴耳机，用户也能通过充电盒与AI进行语音交互。

充电盒上的独立麦克风

因此，在沐浴、起床、阅读等“不想戴耳机”的场景中，用户依然可以与AI保持基本互动，例如查询天气或日程安排。

这种分布式协同的设计思路并非孤例。在Meta的Orion项目中，除了智能眼镜本体，还配套了用于读取神经信号的手势追踪腕带，以及一个遥控器大小的计算模块，三者通过无线方式协同工作。腕带能帮助AI更精准地理解用户的手势意图。

由此可见，手表、耳机、眼镜乃至充电盒，并非彼此替代的竞争关系，而是在不同位置、不同维度上，分别承担起AI助理的“感官”与“分身”。它们分工协作、相互补位，最终目标一致：让AI真正“在场”，并主动融入日常生活。

展望未来，设备的物理边界将持续模糊。光帆科技对主动智能的判断是：未来必定是多设备联动，由一个统一的AI大脑进行调度。基于其自研操作系统，公司后续计划接入更多形态的终端，例如智能颈挂、眼镜或项链等。

无人区的艰难跋涉

主动智能不属于单一硬件，而属于一个协同运作的分布式系统。打造这样一套分布式AI硬件，绝非将耳机、手表、充电盒简单叠加，而是一场涉及算力分配、设备间低功耗通信以及人机工程学取舍的极限挑战。

其中最核心的问题是：如何让一个仅重几克的设备，承载起接近大模型的“智能灵魂”？

光帆科技的解决方案是自研一套端云结合的操作系统：Lightware OS。其核心思想并非将所有能力塞进单一设备，而是建立一种类似“生物神经系统”的层级分工与调度机制。

云端作为最“聪明”、算力最强的“大脑”，负责调用不同的大模型，完成语音与图像理解、意图识别以及复杂推理与决策。例如，结合用户位置、视觉识别的招牌信息及历史评价，判断餐厅类型与口碑。
充电盒具备本地算力，但不负责“深度思考”，其核心是快速响应与稳定兜底。内置4G eSIM保证“永不掉线”，它作为流量调度站，能在毫秒级内判断请求类型（如导航或音乐），并将音视频流快速推送至云端。同时，在网络波动时利用本地算力进行“行为缓冲”，避免交互中断。
耳机则扮演全天候的“感官末梢”，主要负责“听”和“看”，仅运行最轻量的AI任务（如语音唤醒、低像素物体轮廓识别），以极低功耗实现能力的后台“静默运行”，确保随时在场。

另一个棘手挑战是如何把握交互的“分寸感”。一个缺乏边界意识的AI助手，很容易从“贴心”变为“打扰”，最终被用户关闭。因此，在Lightware OS中，系统层必须具备场景判断能力：用户是否忙碌？当前是否适合打断？此次介入是否真正有价值？这种对“干扰优先级”的判断，无法仅靠为大模型编写提示词（Prompt）解决，而必须被深植于系统的底层逻辑中。

如何让这套分布式硬件长期、可靠地作为整体运行，同样是一大工程难题。仅端侧而言，多设备间的实时通信已足够复杂；更进一步，单个设备内部往往集成多颗芯片，芯片间的高效协作直接决定了系统稳定性。这并非“写好一个程序”就能解决，而需在硬件层、驱动层、通信层实现协同优化。

还有硬件工艺上的“极限平衡”。在耳机这种极度受限的形态中加入摄像头，必须同时权衡体积、重量、续航、散热与佩戴舒适度。最终，在加入摄像头和更大容量电池后，光帆科技将单只耳机重量控制在11克，远低于常见智能眼镜约40克的重量，其佩戴舒适度与行业头部的耳挂式耳机相当。

近年来，CES（国际消费电子展）一直是“杀手级AI硬件”想象力的集中展示场。在众多创新方向中，个人穿戴与随身设备始终是焦点，而耳机这一高频入口也正在被重新定义。

2026年1月6日至9日，光帆科技将携全球首款主动式AI耳机亮相CES。下一代AI硬件的演进方向，或许正隐藏在这些看似熟悉、却正被深度重塑的随身设备之中。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/16881

视觉感知与主动智能：AI耳机如何重塑人机交互范式

AI 硬件大爆发，被动式 AI 面临挑战

“看得见”，是主动智能的门票

从单兵作战到多感官协同：主动智能的必经之路

无人区的艰难跋涉

相关推荐

Claude Code 2.1.0重磅发布：1096次提交引爆AI编程革命，会话传送与多语言响应引领新浪潮

从Vibe Coding到Wish Coding：蚂蚁灵光App如何用意图编程重构软件生产关系，让普通人跳过代码直接交付可用软件

Chandra OCR：重塑文档AI新标杆，以结构感知开启OCR 2.0时代

ClaudeCode 自述构建历程：九成代码由AI生成，三天打造核心代理，开发者角色迎来新变革

TRAE SOLO独立端发布：跨界AI办公，一键搞定产品、运营、数据、研发全流程