一、当AI的进化止于屏幕
OpenClaw的流行,不仅在于它能替代用户执行任务。
如果仅是实现自动化,现有的RPA工具早已能够胜任。OpenClaw真正引发关注的,是其展现出的主动性:基于对邮件、日程和聊天记录的持续理解,它能主动处理事务、推送潜在需要的信息。这种从“响应式”到“主动式”的跨越,让行业首次意识到:AI智能体不仅能“被驱使”,更能“替你思考”。
然而,这种主动性存在一个明确的边界——它被限制在屏幕之内。
OpenClaw的感知源于截屏和文件系统,记忆则来自聊天记录和邮件归档。一旦合上电脑步入现实生活,其上下文链路便告中断。会议室里长达一小时的讨论、通勤路上偶然瞥见的书籍、午餐时的随意交谈,对所有数字智能体而言都是感知的盲区。
这并非OpenClaw独有的缺陷,而是所有数字智能体共同面临的结构性边界。当视线从屏幕转向现实,上下文的载体便从文本流转变为视听流,这不仅是数据量的增加,更是信息维度的跨越。
只有当现实世界本身成为AI的上下文,智能体才有机会从数字世界的“主动帮你干活”,进化为现实生活中的“主动替你留心”。这正是主动式智能从线上走向线下的起点。
瞄准这一命题,Looki推出了其最新的主动智能引擎——Proactive Intelligence Engine。
这家由卡内基梅隆大学校友创立的硬件初创公司,正将自动驾驶领域“从感知到决策”的工程范式,迁移至一款仅重30克的可穿戴设备上,试图在现实世界中构建真正的主动智能。
二、从“被动记录”到“主动判断”
判断一个智能体是否真正理解你的生活,最直接的方式是看它是否敢于主动发起交互。
Looki L1自去年8月在海外发售以来便引起了广泛关注,并于12月推出国内版本。在用户社区中,它被称为“人生回看器”,通过全天候的视听记录,为用户梳理生活碎片、提供回溯与洞察。

但其早期的交互模式仍是响应式的:用户询问“今天吃了什么”,它从视听数据中提取答案;用户要求整理会议内容,它忠实执行。交互的触发权始终掌握在用户手中。
而近期向国内用户正式上线的最新版本,标志着这款产品实现了一次关键跨越。
Looki从固定间隔采集数据,升级为AI自主判断“此刻是否需要记录、是否需要给出反馈”的动态决策模式。团队将其定义为“场景自适应式智能”。
这种“主动”在实际体验中感受如何?以下是一次真实的出差经历。

佩戴Looki前往机场。通过安检后,第一条推送抵达。它并非航班提醒,而是在识别到我进入候机区后主动提示:“你曾答应给家里的孩子们带礼物,可以在机场挑选航天模型或熊猫周边。”它所记住的并非日程条目,而是几天前某次对话中我随口提及的一句话。
走进餐厅尚未落座,第二条推送到来:“这‘返京第一餐’选得很有老北京特色!建议搭配一碗小米粥或炒肝,记得去调料区取些醋和油辣椒,这样更地道。”
它识别出了餐厅场景,并基于我的饮食偏好给出了搭配建议。这条推送的信息密度与个性化程度,超出了我对一款可穿戴设备的常规预期。

回到候机区,第三波推送抵达:一份基于我预设的“AI行业动态”偏好生成的当日新闻摘要,内容涉及算力价格波动、新融资事件等,每条都附有与我关注领域的关联分析;紧随其后的是三条关于航站楼的趣味知识,最后一条竟涉及天窗采光设计——因为它记得我偏好“明亮的办公环境”。
一小时,三个场景节点,四次主动判断。每一次都融合了即时感知与历史记忆,无需我主动发起。坦率地说,其中几条推送的时机之精准令人意外:它确实在学习“何时该开口”。
这条体验链背后的技术路径,与OpenClaw截然不同。OpenClaw从文本指令出发,经工具调用至结果反馈,在数字世界形成闭环。
而Looki PIE的起点是未经剪辑的现实视听片段。系统首先“看懂”场景,再从全天行为时序中检索相关记忆,判断“此刻是否值得介入”,最终生成一条融合即时感知与历史上下文的推送。
从响应式到主动式,关键不在于模型更大,而在于让现实世界成为持续供给的个人化上下文。
三、主动判断的两个技术维度
在出差场景的“即时提醒”之外,应用内的另一个功能页面“探索”,提供了一个更具想象力的入口:用户可以用自然语言,自行定义智能体在何种条件下应执行何种操作。
这本质上是在为现实世界编写“如果……那么……”的触发规则。
例如,可以设定:“每天一杯咖啡,多了提醒我克制”、“到了餐厅帮我推荐菜品”、“开会时有任何洞察及时告诉我”、“每天早上到公司,把我关心的信息发给我”。设定过程极为简洁,只需输入自然语言即可。

这些规则的触发逻辑与手机定时提醒完全不同。手机闹钟只能依据时间或地理位置触发,而Looki的触发条件则是场景语义:仅在摄像头捕捉到你面前出现第二杯咖啡时,才触发健康提醒;识别出你走进餐厅并正在浏览菜单时,才推送菜品推荐。
其背后是一套完整的处理管线:从自然语言的意图解析、视觉特征提取,到实时场景匹配与多维上下文验证。这套具身智能流水线通常存在于机器人实验室,如今被集成进仅重30克的日常设备中。
然而,比“看懂场景”更具挑战的是“决定何时开口”。
回顾出差时的四次推送:安检后提醒购买礼物——“进入商业区”、“有空闲时间”、“记忆中有承诺”,三个条件需同时满足;进入餐厅后推荐菜品——“正在做就餐决策”、“了解用户口味”;候机时推送新闻——“有碎片时间”、“内容与偏好匹配”。每一次都是多因子的时机决策,而非简单的规则匹配。
实际体验中最深的感受是:主动式AI的核心难度,不在于推送内容的质量,而在于时机的精准度。
同一条信息,在忙碌时弹出是干扰,在闲暇时送达则是贴心。相比之下,OpenClaw的场景相对单纯:它仅在用户发出明确指令时行动,无需在物理环境中判断介入时机。而Looki PIE的挑战,则更多体现在纷繁复杂的物理世界中,判断和选择时机比在信息世界中更为困难。
这种分寸的把握,正是主动式AI最核心的技术挑战。
四、为现实世界构建一套全新的智能体框架
Looki PIE是一个产品概念,落实到工程层面则是一个系统性问题。
OpenClaw的框架为数字世界设计:所有输入均为文本形态,所有操作均在数字环境中执行。当智能体走出屏幕,面对混沌的视听流和不确定的现实场景时,其框架的每一层都需要重建。
在Looki的两位创始人看来,自动驾驶本质上就是在为现实世界搭建工程框架:从实时采集多模态数据、以极低延迟完成场景理解,到做出决策并承担后果。如今,他们将同一套工程范式从道路场景平移至日常生活。
首要解决的是“感知”问题。
在设备仅重30克、需保证12小时续航的条件下,感知模块不可能持续全功率运行。Looki PIE的突破在于,在设备端部署了轻量化的决策模型,能够根据环境光流和声音波形,实时判断“此刻是否值得激活”。通勤时低频运转,在会议或聚餐等场景则自动加密采集。它并非无差别地持续“注视”,而是学会了何时该“睁眼”。
“看到”之后,需要“记住”。
Looki需要处理一整天的视频流与音频流。一帧画面所消耗的计算资源,可能抵得上一封完整的邮件。将全部数据灌入大模型既不经济,也会放大产生幻觉的风险。据其首席技术官介绍,Looki在云端构建了多层级的上下文索引体系,能够根据语义需求,精准提取最相关的片段。出差场景中“你答应给孩子带礼物”那条推送,正是依靠这套索引,从数天前的一段对话中检索出一个承诺,并在“用户正在机场候机”的实时场景中将其激活。
最顶层的挑战,则是“决定是否开口”。
感知与记忆提供了基础,但 Looki PIE 能否真正成立,关键在于其决策层能否在无明确指令时,自主判断何时应该采取行动。数字环境中的智能体无需纠结于此——行动通常由用户的明确指令触发。而现实环境中的智能体则必须具备这层主动决策能力,且容错空间极小。
此外,一个无法回避的核心问题是隐私。
Looki 采用了端侧过滤与 App 手动上传相结合的双重控制机制,原始视听数据不会无差别上传至云端。其动态感知机制在架构层面实现了一个巧妙设计:设备并非持续录制,而是由 AI 实时判断“此刻是否需要激活”。同一套决策逻辑,同时服务于功能实现与隐私保护。
当感知范围扩展至整个生活现场时,隐私保障的质量直接决定了产品的生存边界。
五、从「个人上下文」到「数字直觉」
回顾开篇,OpenClaw 向行业展示了主动式 AI 在数字世界中的形态,但局限于屏幕内的智能体,终究只能覆盖生活的一半。
Looki PIE 试图覆盖另一半。它证明:现实世界的上下文——那些连续的视听流、散落的行为轨迹、非结构化的生活碎片——能够被工程化地采集、结构化地记忆、智能化地调用,并以此支撑智能体做出主动判断。
这条路依然漫长。执行力的边界、感知的精度、隐私的框架,都存在大量待解的课题。但方向已然清晰:当你的生活轨迹、所见所闻、与家人的对话都沉淀为专属的「个人上下文」时,AI 便不再需要你手动描述世界。它自己看见、记住并理解,然后在你需要的时候,先你一步行动。
当各路智能体仍在为数字世界的“信息断层”而焦头烂额时,窗外的现实世界,作为上下文的新疆域,才刚刚被纳入 AI 的视野。当智能体最终走出对话框,开始真正“看见”这片广袤的现实,我们与 AI 的关系,或许才迎来全新的开端。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/27143


