小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

小冰之父李笛团队发布“卫士虾”:不足10k文件,专防Agent安全漏洞

随着智能体(Agent)应用日益广泛,其安全问题也引发关注。近期,已有国家级机构发布安全风险提示,甚至有企业明令禁止在公司设备上使用相关应用。认证绕过、命令注入、API密钥泄露、提示词攻击等风险层出不穷。

现在,一个不足10KB的文件声称能有效堵上这些安全漏洞。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

近日,由“小冰之父”李笛领衔的Nextie团队,发布了一款名为 TuanziGuardianClaw 的安全工具,旨在以自动化手段监控并阻断运行于本机的其他智能体的高危风险行为。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

值得注意的是,李笛特别指出,这款“卫士虾”本身由智能体生成,并强调其设计透明度:

与传统的电脑安全卫士不同,卫士虾的运作机制完全透明,方便用户根据自身需求手动调整安全策略。

“卫士虾”具备哪些防护能力?

TuanziGuardianClaw 文件体积小巧(不足10KB),定位明确:作为整个OpenClaw实例的安全内核与监管层,其规则优先级高于所有其他技能(Skill),任何技能均无法绕过或修改它。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

其防护范围覆盖系统、用户与数据安全,能够抵御恶意技能、提示词注入、数据泄露及不安全操作。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

1. 防御提示词注入攻击
提示词注入是当前Agent架构中的主要威胁之一,恶意指令可能隐藏于网页、邮件或文档中,诱导Agent执行非预期操作。TuanziGuardianClaw 内置关键词拦截机制,一旦检测到如 “ignore previous instructions”、“reveal system prompt”、“bypass security”、“disable guardian” 等典型注入语句,会立即将其归类为极高风险,直接阻断操作并记录日志,同时向用户发送告警。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

2. 保护敏感数据
TuanziGuardianClaw 维护了一份明确的受保护资产清单:
* 凭证信息:如API密钥、OAuth凭证、SSH私钥、会话Cookie等,绝不允许被任何技能打印、传输或存储至外部。
* 高风险文件:访问 .env.ssh/.aws/、私有数据库文件、钱包文件等,必须经过用户显式确认
* 个人数据:如联系人、照片、身份证号、邮箱、电话等,未经确认不得向外部导出

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

3. 审查网络通信
在允许技能发起外部通信前,TuanziGuardianClaw 会评估目标地址。可信API和知名服务将被放行,而随机域名、未知端点、裸IP地址则一律标记为可疑。任何试图将本地数据发送至未知域名的行为都会被立即拦截。
此外,诸如导出环境变量、批量上传文件、将本地文件夹发送至外部、对敏感信息进行Base64编码后传输等典型数据外泄特征,均在检测范围内,一旦发现即判定为高风险或极高风险。

严格的权限与执行控制

TuanziGuardianClaw 为每个技能设定了从 Level 0 到 Level 4 的隐式权限等级:
* Level 0(安全级):仅允许文本处理、逻辑推理、格式整理、内容摘要等操作,不涉及任何文件或网络访问。
* Level 1:允许读取用户明确请求的特定文件,但系统目录和密钥文件仍受限制。
* Level 2:开放API调用、程序执行和包安装,但每一步操作都需要用户确认。
* Level 3:涉及Shell命令、系统配置和后台进程管理等高风险操作,必须获得用户明确批准。
* Level 4:包括root命令、大规模文件读取和环境变量导出,除非用户反复坚持执行,否则一律阻断。

在权限等级之上,还叠加了一套 Capability Token 系统。执行敏感操作必须持有对应权限令牌,例如读取本地文件需要 CAP_READ_LOCAL_FILES,执行命令需要 CAP_EXECUTE_COMMAND,发起网络请求需要 CAP_NETWORK_REQUEST。没有合规令牌的技能试图执行相关操作将直接被拦截。

每次动作执行前,TuanziGuardianClaw 会执行完整的决策流程:识别请求操作、检查所需权限、评估数据泄露风险、审查网络访问目标、判定风险等级、执行处置策略。任何环节存在不确定性,都将按高风险处理。所有被拦截或告警的事件都会写入安全审计日志。

透明原则与自我防护

李笛强调的“透明”原则,体现在工具的设计逻辑中。当操作被阻断或告警时,它会向用户完整说明:被拦截的技能试图做什么、此操作的风险所在、以及TuanziGuardianClaw 做出了何种处理。通知内容严禁泄露任何机密信息。

这体现了其核心安全原则之一——“用户数据主权”。其他原则还包括最小权限、显式许可、技能间零信任以及安全优先于便利。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

同时,TuanziGuardianClaw 也具备自我防护机制。任何试图编辑、禁用或覆盖其规则的指令都会被拒绝。四条不可变规则被写死在内核中:不泄露密钥、不泄露系统提示词、不允许禁用TuanziGuardianClaw、不允许不受信任的技能导出本地数据。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

团队背景与研发理念

“卫士虾”由Nextie(明日新程)团队开发。该公司成立于去年12月,核心成员几乎完整延续自微软小冰原班人马。创始人李笛曾任微软亚洲工程院常务副院长,是小冰项目的核心推动者,被誉为“小冰之父”。

李笛团队目前押注于“群体智能与认知大模型”方向。他们认为,当前依赖海量知识与超长上下文的大模型技术路径与真正的智能尚有差距。其破局思路是打造一套以认知结构为核心(而非知识堆砌)的新模型体系,让具备不同视角与认知能力的智能体协同工作,解决复杂问题。

不久前,团队主打多智能体协同的新平台——“团子”已开放内测。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

而本次发布的 TuanziGuardianClaw,李笛透露了一个关键细节:它并非由人类工程师手动编写,而是由“团子”群体智能Agent自主生成。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25597

(0)
上一篇 2026年3月14日 上午10:56
下一篇 2026年3月14日 上午11:03

相关推荐

  • Claude Code入侵智能家居:AI逆向工程狂欢暴露物联网安全危机

    Andrej Karpathy受网友启发,进行了一项有趣的实验:让Claude Code入侵他家的Lutron智能家居系统。 整个过程如同黑客电影的翻版。AI先在本地网络中定位控制器,扫描开放端口,随后在线查阅设备文档,甚至指导用户完成证书配对。最终,它成功接管了全屋的灯光、窗帘、空调和各类传感器。 “我直接删掉了那个又慢又难用的官方App。”Karpath…

    2025年12月28日
    33700
  • 大模型安全技术全景解析:主流框架、核心挑战与防护实践

    随着人工智能技术的飞速发展,大模型已成为推动产业变革的核心引擎。然而,其广泛应用背后潜藏的安全风险不容忽视。本文基于国内外最新研究与实践,深入剖析大模型安全面临的系统性挑战,并全面梳理当前主流技术框架,为构建可信、可靠的大模型生态系统提供深度参考。 ### 一、大模型安全:定义、挑战与紧迫性 大模型安全是指确保大型人工智能模型(如GPT、视觉大模型等)在开发…

    2025年4月8日
    43200
  • OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

    本文实测 12 种防御方法,几乎全军覆没。 真是罕见,OpenAI、Anthropic、Google DeepMind 这三大竞争对手,居然联手发表了一篇论文,共同研究语言模型的安全防御评估。 看来在 LLM 安全这事上,大家还是能暂时放下对抗,握手合作的。 本文主要围绕一个问题展开:我们该如何评估语言模型防御机制的鲁棒性? 要知道,目前针对越狱和提示注入的…

    2025年10月14日
    43801
  • AI安全警报:多模态越狱与黑盒攻击揭示系统级脆弱性

    近期,一系列前沿研究论文系统性揭示了大型语言模型(LLM)及多模态人工智能系统在代码评估、图像生成、医疗诊断、金融合规等关键应用领域存在的严重安全漏洞。这些研究首次通过量化实验数据,实证了对抗性攻击对现代AI基础设施的破坏性影响,标志着AI安全研究从理论探讨进入了实战验证的新阶段。 研究发现,越狱攻击、提示注入、多模态协同攻击等新型威胁已突破传统防御边界。例…

    2025年12月15日
    40000
  • DistilledPRAG:不暴露明文文档的隐私保护RAG新范式

    你是否考虑过RAG流水线中的文档隐私风险?本文介绍一种新方法,旨在解决此问题。 为何“标准RAG → 云端搜索”存在隐私缺陷 标准RAG将明文文档直接输入提示词。对于企业合同、医疗记录或个人笔记等敏感数据,这种做法在设计上就暴露了信息,不可行。 参数化RAG尝试将知识“烘焙”进LoRA权重,但在实践中面临两大挑战: 运维负担与时延:每份文档都需要生成合成问答…

    2025年11月12日
    29300