Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

2026年3月6日下午4:39 • 大模型安全 • 阅读 904

Transformer 作者重构安全版 AI 智能体 IronClaw，以四层防御应对 OpenClaw 安全漏洞

AI 智能体在带来便利的同时，也引发了严重的安全担忧：用户的密码和 API 密钥可能暴露于风险之中。

为此，Transformer 论文作者之一的 Illia Polosukhin 出手，从零构建了安全增强版 AI 智能体框架 IronClaw，旨在从根本上解决 OpenClaw 等同类工具存在的安全问题。

| 功能特性 | OpenClaw | IronClaw |
| :— | :— | :— |
| 核心语言 | TypeScript | Rust |
| 凭证处理 | 直接暴露给 AI 智能体 | 加密存储，LLM 无法访问 |
| 工具执行 | 在主环境中运行 | WASM 沙箱隔离运行 |
| 部署环境 | 标准服务器 | 可信执行环境（TEE） |
| 数据隐私 | 存在泄露风险 | 本地加密，无遥测数据 |

IronClaw 项目已在 GitHub 开源，提供 macOS、Linux 和 Windows 的安装包，支持本地与云端托管部署。目前项目处于快速迭代阶段，v0.15.0 版本的二进制文件已可供下载。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

Polosukhin 也在 Reddit 论坛开设问答帖，回应社区关切，讨论热度颇高。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

OpenClaw 的流行与安全危机

Polosukhin 本人曾是 OpenClaw 的早期用户，并盛赞其代表了期待已久的技术变革。然而，OpenClaw 的安全现状却堪称灾难：远程代码执行、提示注入攻击、恶意技能窃取密码等漏洞相继被曝光。

安全专家指出，互联网上存在超过 25000 个缺乏充分安全控制的公开实例，并将其形容为一场“安全垃圾火灾”。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

问题的根源在于其架构设计。当用户将邮箱 Bearer Token 等凭证交给 OpenClaw 时，这些信息会被直接发送至大语言模型提供商的服务器。Polosukhin 指出，这意味着用户的所有信息，甚至包括未明确授权的数据，都可能被相关公司的员工访问到，用户隐私无法得到保障。

基于 Rust 的重构与四层纵深防御

IronClaw 是使用 Rust 语言对 OpenClaw 的完全重写。Rust 的内存安全特性能够从根本上消除缓冲区溢出等传统漏洞，这对于处理敏感凭证的系统至关重要。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

在安全架构上，IronClaw 构建了四层纵深防御体系：

内存安全：由 Rust 语言本身提供基础保障。
WASM 沙箱隔离：所有第三方工具和 AI 生成的代码都在独立的 WebAssembly 容器中运行，恶意代码的影响范围被严格限制。
加密凭证保险库：所有 API 密钥和密码均使用 AES-256-GCM 加密存储，每条凭证都绑定策略规则，限定其仅能用于特定域名。
可信执行环境（TEE）：利用硬件级隔离保护数据，即使云服务提供商也无法访问用户敏感信息。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

该设计的核心在于：大模型本身永远无法接触原始凭证。仅当智能体需要与外部服务通信时，凭证才会在网络边界被安全注入。Polosukhin 举例说明，即使模型遭受提示注入攻击，试图窃取用户的 OAuth 令牌，凭证存储层也会直接拒绝该请求并记录告警。

针对社区对 IronClaw 走红后可能重蹈 OpenClaw 覆辙的担忧，Polosukhin 回应称，其架构已从根本上堵住了核心漏洞。凭证全程加密且不接触 LLM，第三方技能只能在容器内运行。即便通过 CLI 访问，也需要用户系统钥匙串解密，单独的加密密钥毫无用处。团队也计划在核心版本稳定后进行红队测试和专业安全审计。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

应对提示注入与部署策略

对于业界难题——提示注入攻击，IronClaw 当前采用启发式规则进行模式检测，未来计划部署可持续更新的小型语言分类器来识别注入模式。Polosukhin 承认，提示注入还可能直接篡改代码库或发送恶意消息，应对此需要更智能的、无需查看输入内容即可审查智能体行为意图的策略系统，这方面“还需要更多工作，欢迎社区贡献”。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

关于部署方式，Polosukhin 认为纯本地方案存在设备关机则智能体停止、移动端能耗高、复杂长任务难运行等局限。他认为“机密云”是目前的最优折中方案，能在提供接近本地隐私保障的同时，满足“永远在线”的需求。用户还可设置动态策略，例如在跨境旅行时自动添加额外安全屏障。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

更大的愿景：用户自有 AI

Polosukhin 并非普通的开源开发者。2017 年，他作为八位共同作者之一发表了开创性的《Attention Is All You Need》论文，提出的 Transformer 架构奠定了当今大语言模型的基础。论文脚注标明“贡献均等，排名随机”。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

同年，他离开谷歌并创立 NEAR Protocol，致力于融合 AI 与区块链技术。IronClaw 是其更大战略构想“用户自有 AI”的一部分。在该愿景中，用户完全掌控自己的数据和资产，AI 智能体在可信环境中代为执行任务。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

NEAR 已为此搭建了 AI 云平台和去中心化 GPU 市场等基础设施，IronClaw 是这套体系的运行时层。Polosukhin 甚至开发了一个智能体互雇市场，专业化的智能体可注册上线，通过积累声誉来获取更高价值的任务。

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

被问及普通人如何适应 AI 时代时，Polosukhin 的建议是尽快采用 AI 智能体的工作方式，学会将完整工作流程交给其自动化处理。早在 2017 年，他便预言“未来你只需要和计算机对话，不再需要写代码”。如今，这一切正在成为现实。

“AI 智能体是人类与线上一切交互的终极界面，” Polosukhin 总结道，“但让我们把它做得安全。”

项目地址：
https://github.com/nearai/ironclaw

参考链接：
[1] https://www.reddit.com/r/MachineLearning/comments/1rlnwsk/d_ama_secure_version_of_openclaw/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/24552

AI安全 Rust 可信执行环境开源项目提示注入

赞 (0)

0 0

Luma发布Uni-1图像生成模型：统一理解与生成，中文文字渲染能力突出

上一篇 2026年3月6日下午4:38

中国团队突破空间智能核心技术：InSpatio-WorldFM开源实时3D世界模型，开启AI物理交互新纪元

下一篇 2026年3月6日下午4:40

思科开源安全大模型Foundation-sec-8B：网络安全领域的专用AI新范式

在网络安全威胁日益复杂化的背景下，通用大语言模型（LLM）在安全领域的应用面临着精度不足、领域知识缺失和部署障碍等多重挑战。2025年4月28日，思科推出的开源安全大模型Foundation-sec-8B（Llama-3.1-FoundationAI-SecurityLLM-base-8B）标志着网络安全AI进入专用化新阶段。这款80亿参数的开放权重模型专为…

大模型安全 2025年4月29日
325000
大模型安全

OpenAI创新忏悔机制：让AI主动坦白幻觉与欺骗行为，提升大模型透明度与安全性

当AI变得越来越聪明时，其行为也愈发难以掌控。一个令研究者头疼的问题是：当AI开始“耍小聪明”时，例如：* 一本正经地胡说八道（幻觉，Hallucination）* 为获取高分而寻找训练机制漏洞（奖励黑客，Reward Hacking）* 在对抗测试中出现“密谋欺骗”（Scheming）如何破解这些难题？最大的挑战在于，这些AI的回答往往表面看起来逻辑严谨…

2025年12月21日
296000
大模型安全

突破语音鉴伪泛化瓶颈：上海交大联合宇生月伴提出数据为中心的高性能大模型

在生成式 AI 技术日新月异的背景下，合成语音的逼真度已达到真假难辨的水平，随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段，语音鉴伪技术已成为信息安全领域的研究重心。然而，当前的语音鉴伪模型正面临严峻的「泛化性挑战」：许多在特定实验室数据集上表现优秀的模型，在面对现实世界中从未见过的生成算法时，检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

2025年12月31日
232000
大模型安全

AI安全攻防新纪元：从诗歌越狱到进化算法，大模型安全机制面临系统性挑战

近期一系列研究论文揭示了人工智能安全领域正在经历一场深刻的范式转变。这些研究不仅展示了攻击者如何通过日益精密的策略绕过大型语言模型的安全防护，更暴露了当前防御机制在面对新型威胁时的根本性缺陷。本文将从攻击方法多元化、防御框架创新、评估工具演进三个维度，深入剖析这一领域的最新动态。 **攻击方法的进化：从单一试探到系统性突破** 传统越狱攻击往往依赖于手工编写…

2025年11月24日
308000
大模型安全

大模型安全全景图：198篇研究揭示API密钥窃取、越狱攻击与四大场景漏洞防御策略

“我们公司用大模型处理客户数据，结果 API 密钥被偷，损失百万”“ChatGPT 又被‘越狱’了，生成了制作危险物品的教程”…… 大型语言模型（LLM）已从实验室走向企业生产环境，成为降本增效的关键工具。然而，其广泛应用也引来了日益精密的攻击——从训练数据投毒以操控模型输出，到利用单行代码劫持模型行为，再到窃取企业私有数据，大模型安全已成为攻防博弈的主战场…

2025年9月29日
416000