过去数月,AI领域很难绕开一个名字——OpenClaw。该项目在极短时间内获得了爆发式关注:数十万星标、惊人的Token消耗,以及几乎所有头部科技公司的快速跟进。表面上看,它像是又一个现象级AI产品;但进一步审视,一个更值得思考的问题随之浮现:OpenClaw的出现究竟意味着什么?它是一次技术突破,还是某种更深层变化的信号?
近日,端侧智能北京市重点实验室在清华科技园召开了关于智能体技术的创新研讨会。八位产学嘉宾从底层技术问题、技术演变趋势、端云协同范式、安全挑战及智能体管理实践等维度切入,围绕OpenClaw背后的技术逻辑与未来发展趋势进行了深入研讨。
中国人民大学副教授林衍凯在会上作了题为《从OpenClaw看智能体技术发展趋势》的报告,试图回答三个本质问题:
1. 当前智能体技术究竟走到了哪一步?
2. 其真正的核心瓶颈在哪里?
3. 未来一到三年,这条技术路径将如何演进?
通过对系统架构、交互执行方式、基座模型与多智能体协同的分层拆解,他提出了一个“反直觉”的判断:OpenClaw并非底层算法的突破,而是通过工程化整合,使大模型能力跨过了“可用性阈值”,真正让智能体走向实用。 它更像一个智能体操作系统的早期雏形,通过在统一模型、工具与交互方式上重新定义范式,实现了模型能力与工程体系在同一时间点的共振。
同时,林衍凯也系统性地指出了OpenClaw所暴露的当前智能体在可靠性、长任务执行、Token成本、记忆体系及自主进化等方面的核心瓶颈。
最后,他强调,智能体未来发展的关键将不再仅是模型能力的增强,而是通过端云协同、协议标准化和多智能体系统,实现从单点能力向系统级能力的跃迁。

以下是演讲全文整理:
今天,我想借OpenClaw这个近期备受关注的智能体项目,与大家探讨几个问题:目前的智能体技术到底走到了哪一步?它的核心瓶颈是什么?下一步会朝哪些方向发展?我将尽量聚焦技术层面,分享一些个人思考。
首先看一组数据。OpenClaw引发轰动后,24小时内获得了九千个星标,两个月内星标数超过27万,甚至一度成为GitHub历史上星标增长最快的项目之一。这是其在OpenRouter平台上的Token消耗情况,单周消耗达4.73T,超过了其后许多项目的总和。与此同时,国内几乎所有大厂都在快速跟进,相关应用集成与地方政策也相继出现。

我今天并非讨论其热度,而是想探讨三个偏技术的问题:
1. 它为何在当下这个时间点引爆?
2. 从技术角度看,它究竟有无创新?
3. 从它的成功与局限中,能看到哪些亟待解决的技术问题?
OpenClaw爆火的本质是“可用性革命”
OpenClaw从项目启动到星标突破20万、创始人加入OpenAI,仅用了三四个月。其迅速走红的根本原因,在于极大地降低了用户使用门槛。它不同于传统聊天机器人,而是一个能自主执行任务的AI智能体。虽然大模型出现后已有AutoGPT、XAgent等类似尝试,但OpenClaw真正让普通用户也能轻松上手使用。

这里我有一个明确的观点:从AI与大模型的核心技术创新角度看,OpenClaw并无太多突破。 它不训练模型,不改进推理算法,也不做底层的工具学习。它所做的是IM通讯平台接入、本地部署架构、分层记忆以及Gateway标准化——这些都是优秀的软件工程设计,但核心算法层面并无本质革新。
系统中真正提供良好体验的,是它所接入的Claude Opus、GPT等基座模型。可以说,OpenClaw对于大模型的意义,类似于浏览器之于互联网——它本身不创造内容,但重新定义了交互方式,让非技术背景的人也能顺畅地将大模型能力应用于实际工作。

正因其在底层算法上未做过多改变,OpenClaw反而成为一个绝佳的技术分析样本。它的成功清晰展示了哪些技术已相对成熟(例如基座模型的工具调用与执行能力),同时也暴露了当前仍缺失的技术环节(如系统可靠性、记忆迁移能力、端云协同的成熟度)。
今天,我以OpenClaw为切入点,尝试系统性地审视智能体技术在不同层级上的现状、核心瓶颈以及潜在的研究方向。
来看一组统计数据。这是大模型出现以来,智能体在50%成功率下能自主完成的任务长度变化。大模型出现后,其能力倍增周期从早期的约7个月,加速至过去一两年的约4个月。右图显示,Claude Opus、GPT等最新版本在代码能力、工具调用方面相比前代实现了质的飞跃。

OpenClaw是智能体操作系统的雏形
OpenClaw的总体技术架构清晰简洁:从底层系统控制到智能体循环系统,再到上层的标准化封装与信息流管理,最后接入面向用户的各种通道。其良好体验源于六大关键技术特征:社交接入、本地部署、设备接入、模型生态、技能生态。这些特征使其对底层模型、各类用户、设备及复杂任务具备了极强的兼容性。

从软件工程层面看,OpenClaw有三个核心设计:
第一,Gateway系统。 采用三层架构,通过分层设计,使得不同的外部设备或IM软件都能经由Gateway统一路由和调度至智能体层。智能体本身无需关心交互平台或外部硬件,只需专注于底层API与顶层接口的对接。

第二,分层记忆机制。 该机制设计简洁而实用:
* L1(短期记忆):当前会话上下文,随会话结束而终止,上下文窗口将满时会自动压缩。
* L2(近期日志):类似每日笔记,自动读取近两日日志,设有30天衰减周期。
* L3(长期记忆):对底层信息进行总结,持久化存储人物特征、偏好与经验教训。
* L4(语义召回):基于文件的语义智能检索,核心目标是实现个性化。
这套构建于大模型之上的记忆架构,使系统能够“越用越懂你”,效果持续优化。

第三,对Claude技能生态的兼容。 采用三层加载机制:
1. 通过名称与描述帮助模型快速理解技能功能,实现技能检索。
2. 提供详细的工作流程,使模型在面对特定任务时知晓如何处理。
3. 提供相关资源支持。
这种技能封装方法使智能体能够执行高度专业化任务。
以上三点,是我拆解OpenClaw后认为最具工程价值的部分。

在剖析了OpenClaw的整体架构后,我们可以从一个更宏大的视角来审视它:OpenClaw或许不应被简单地视为一款软件或应用,而应被看作是未来智能体操作系统(Agent OS)的早期原型。
一个有趣的类比是,正如Linux为所有硬件和软件提供了统一的标准运行环境,OpenClaw正在尝试为所有AI模型、消息平台和工具插件建立一套通用标准。这正是操作系统的核心使命。
- 对上提供抽象:通过LLM抽象层,屏蔽不同大模型API的差异。
- 对下管理资源:管理各类Skill插件、消息通道等。
- 中间层调度:通过Agent循环、运行时和网关(Gateway)进行核心调度。
其四层架构(LLM抽象层、Agent循环、运行时、Gateway)与操作系统的经典分层高度契合。

目前,OpenClaw尚处于早期阶段,如同初代Linux一样,代码结构有待优化,架构也远未成熟。它主要解决了“单人在单机上运行单个Agent”的问题。而未来的场景是成百上千的Agent在分布式环境中协同工作,这需要线程管理、服务发现、行为审计等更复杂的操作系统级功能。因此,整个生态的竞争正在框架层、协议层以及未来的编排层全面展开。未来的模型、工具和应用,都必须适配主流框架和协议才能被有效使用。
这引出了一个关键转变:智能体模型的评价标准,正从“跑分高”转向“用起来好”。模型必须在特定的运行框架(如OpenClaw)下表现良好,才能获得用户。这就如同移动互联网时代,应用必须适配iOS和Android系统。未来,智能体模型也必须主动适配主流的Agent OS框架。
生态竞争焦点:框架、协议与Agent-Native软件
从操作系统层面看,目前主要有三条技术路线正在竞争:
- OpenClaw路线:主打开源、本地优先、以即时通讯(IM)为驱动。优势在于生态开放、隐私可控,但安全问题较为突出。
- Anthropic Claude Code路线:通过命令行界面(CLI)运行,深度集成其提出的模型上下文协议(MCP),内置多智能体协作,在编程任务上优势显著,更偏向开发者。
- OpenAI路线:将智能体能力直接集成在ChatGPT等产品中,直接触达海量消费者。
在协议层,MCP、A2A、IOA等协议也在争夺生态话语权。协议决定了工具调用的标准,谁主导了协议,谁就掌握了生态的主动权。对于模型研发者而言,这意味着工具调用、结构化输出、长上下文、强推理等能力正从加分项变为硬性要求。

交互执行层:API调用 vs. GUI操作
在智能体如何操作软件这一交互执行层面,目前有两条技术路径在探索:
- API/协议调用路线:通过调用结构化API(如MCP协议)直接操作软件。其优点是可靠、执行快、易于验证。但挑战在于,现有大量软件并未提供完善的API接口,覆盖率不足。
- GUI Agent路线:让智能体像人一样“看”屏幕并通过鼠标键盘操作,如豆包AI手机、Claude Computer Use。其优势是通用性强,可操作任何有界面的应用。缺点是需不断截屏识别,速度慢、耗资源,且点击准确率不如API稳定。

大模型智能体的兴起,特别是OpenClaw这类现象级产品的出现,正在倒逼传统软件向“AI原生(Agent-Native)”方向演进。当用户发现API调用体验更佳时,会自然要求软件提供API。如果主流框架无法调用你的软件,该软件将面临被淘汰的风险。
近期已有研究尝试用大模型自动将GUI软件转化为Agent-Native的CLI接口,例如港大的CLI-Anything项目。它通过自动化流水线分析软件代码库并生成CLI,已在Blender、LibreOffice等9款软件上验证通过。
因此,短期来看,两条路线将共存:GUI处理长尾应用,API/Skill调用处理核心工作流。长期而言,随着更多软件被转化为Agent-Native接口,工具调用的覆盖率将持续上升。
核心瓶颈与关键技术路径:长程任务、端云协同与记忆
从基础模型层面看,智能体要真正落地,必须能可靠地完成多步长任务。这是用户愿意依赖它的前提。
研究显示,在仅要求50%成功率时,顶尖模型如Claude Opus能规划长达10小时的任务。但若将商用可靠性要求提高到80%-95%,其可靠任务时长会大幅缩短至1小时左右。对于算力有限的普通用户或端侧设备,当前可用的模型可能仅能可靠执行几分钟的任务。这使得纯端侧智能体的路径短期内挑战巨大。

因此,端云协同成为一个可行的技术路径:
* 云端:负责复杂的任务规划、拆解与最终验证。
* 端侧:执行被分解后的、耗时较短的子任务。
研究(如AgentCPM系列工作)表明,在特定垂直场景下,端侧小模型完全可以达到与云端大模型相近的效果。同时,根据“密度法则”(Densing Law),端侧模型能力约每3.5个月翻倍。今天需要云端处理的子任务,未来很可能由端侧独立完成,端云协同的边界将不断向端侧推移。

另一方面,专业领域智能体的能力已逼近人类专家水平。例如在代码领域,Claude Code生成的提交已占GitHub的4%,预计年底将达20%;国内的研究也证明大模型能批量辅助产出研究论文。智能体在垂直领域的突破正在加速。
这些案例可以提炼出一个共性公式:专业智能体 = 通用大模型 + 领域知识库 + MCP 工具 + 专业 Skill 工作流 + 领域后训练。走通这条路径后,便可在端侧搭建面向具体子任务的智能体,实现算力节省与效率提升。
纯云端方案的另一个突出痛点是 Token 消耗巨大。目前 OpenClaw 的实际用户量并不算大,一周已消耗 4.7T Token。若未来用户规模达到数千万,现有基础设施将难以承受。从成本对比来看,使用 Opus 4.6 模型运行 OpenClaw 每日成本约 10 美元,即便采用 GPT5.4 也需 5.5 美元。
未来,竞争维度可能转向 高质量 Token 的储备,掌握更多高质量 Token 的主体将在产业与技术竞争中占据优势。
当前高昂的 Token 成本难以支撑用户规模增长十倍、百倍的未来场景,因此必须充分利用手机、PC 等端侧闲置算力,实施端云协同。云端负责任务规划与分解,端侧轻量模型则执行子任务。一旦长任务被拆解为十步以内的子任务,端侧模型即可胜任。解决长程任务不一定依赖单一模型能力的增强,也可以通过任务拆解,让合适的模型处理合适的环节。

实现长任务处理的另一关键是记忆系统。当前记忆系统设计多样,包括基于人工设计或学习的方法,以及明文记忆、隐状态记忆和参数化记忆等形式,各有优劣。人工设计的记忆架构安全可预测,但策略固定,难以适应新场景;基于学习的记忆可能发现更优策略,但需模型权重可访问并提供梯度信号。
就记忆形式而言,隐状态记忆与特定基座模型绑定,缺乏通用性;参数化记忆则难以迁移至其他模型。从未来记忆架构的可复用性角度看,对于端侧模型可采用隐状态或参数记忆;而面向大规模端云记忆复用,“可迁移的明文记忆 + 可优化/学习机制” 有望成为主导方向。

从工具型智能体到自主进化系统
最后探讨自主进化。当前智能体的自主性仍显不足。当任务应用于多样化的真实场景时,环境的动态性与多变性要求模型能像人类一样主动适应、探索并持续学习。现有智能体依赖既定模式,部署后难以自主进化。学术界的大模型训练范式已从早期的模仿学习,经由人类反馈的强化学习,正迈向具备主动环境交互能力的自主学习范式。
结合端云协同与 OpenClaw 框架,我们能否实现端侧自主进化?
当前自主进化体系包含多种分类,如基于经验学习与参数学习,或依据明确监督、弱监督及无监督信号。近期一项尝试是普林斯顿团队在 OpenClaw 上进行的端侧自主进化项目 OpenClaw-RL。该工作发现,智能体与环境交互时产生的状态信号(如用户回复、工具输出、终端状态变化)既包含评价信息,也隐含行动指导。
OpenClaw-RL 设计了一套全异步四组件架构,在服务用户的同时,后台同步进行轨迹收集、质量评估与权重更新。在一个个性化评测场景中,仅需 8 步训练 即可将得分从 0.17 提升至 0.76。当然,该项目仍处早期,局限明显:需 8 块 GPU、仅支持自托管开源模型、无法改进闭源模型、且未实现跨用户联邦学习。当前端侧自主进化机制仍非常初级,存在参数学习训崩风险、闭源模型无法学习、各端仍是数据孤岛等问题。真正的 AI 自主进化距离实用尚有长路。

若能实现端云结合,未来将有更多设备参与其中。再看多智能体系统,过去几年其发展令人瞩目。从 2020 年 OpenAI Five 的个位数智能体,到 2026 年 Moltbook 上 150 万智能体的自主社交,规模跨越六个数量级。
清华团队提出的 MacNet 证明,增加智能体数量能持续提升任务解决质量(首次揭示了智能体协作的 Scaling Law)。头部科技企业与研究机构也尝试引入多智能体,例如 Opus 4.6 引入了 Agent team 功能,一个主 Claude 实例可生成多个独立子智能体并行工作,通过共享任务列表与消息系统协调。这是工业界在多智能体架构上一次较为成熟的探索。
但需理性看待多智能体现状。Moltbook 虽造成轰动——150 万 AI 智能体在论坛中讨论技术、哲学甚至创建“龙虾教”,但从技术角度看,这更多是大量智能体的单向广播,而非真正互动。
真正的群体智能涌现,应像曼哈顿工程或载人航天那样,由一群智能体协作完成单个智能体无法企及的更高级任务。这需要智能体之间产生有意义的分工、冲突与适应性协调,而非各自为政。距离真正的“智能体互联网”尚有很远。

发展三阶段研判
最后,对发展路径做个人研判:
– 第一阶段:工具化智能体。智能体作为增强工具,人类设定目标并审查结果。关键突破在于推理能力增强及其向端侧下沉。当 10B 规模的端侧模型具备 R1 或 V3.2 级别推理能力时,端云协同架构可大规模部署。MCP、A2A 等协议将在此阶段逐步收敛。按此加速,到 2027 年,智能体或能处理数天乃至周级长任务。
– 第二阶段:半自主/协作智能体。多个智能体可实现自主分工、协调与纠错,其协作规模效应可被可控预测与利用,在线学习成为标配功能。正如 iPhone 发布三年后应用生态才迎来爆发,智能体操作系统也需要类似的生态建设期。
– 第三阶段:具备自主学习能力的智能体。世界将存在万亿级智能体,它们能在部署后持续进化。但抵达此阶段面临诸多根本性未解难题:自主性边界何在?如何实现模型无关的记忆架构?群体涌现的条件是什么?当智能体取代知识工作者,谁为 Token 付费?这些挑战也正是研究者的机遇。

总结
OpenClaw 本身并非技术突破,但它是技术临界点的标志。从端云协同、记忆架构、端侧进化到群体智能,均暴露了当前智能体技术的深层问题,每个层面都存在广阔的研究空间。我们正处在智能体技术从 “演示可行” 迈向 “大规模部署” 的转折期,这一时间节点至关重要。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27951


