小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

小冰之父李笛团队发布“卫士虾”:不足10k文件,专防Agent安全漏洞

随着智能体(Agent)应用日益广泛,其安全问题也引发关注。近期,已有国家级机构发布安全风险提示,甚至有企业明令禁止在公司设备上使用相关应用。认证绕过、命令注入、API密钥泄露、提示词攻击等风险层出不穷。

现在,一个不足10KB的文件声称能有效堵上这些安全漏洞。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

近日,由“小冰之父”李笛领衔的Nextie团队,发布了一款名为 TuanziGuardianClaw 的安全工具,旨在以自动化手段监控并阻断运行于本机的其他智能体的高危风险行为。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

值得注意的是,李笛特别指出,这款“卫士虾”本身由智能体生成,并强调其设计透明度:

与传统的电脑安全卫士不同,卫士虾的运作机制完全透明,方便用户根据自身需求手动调整安全策略。

“卫士虾”具备哪些防护能力?

TuanziGuardianClaw 文件体积小巧(不足10KB),定位明确:作为整个OpenClaw实例的安全内核与监管层,其规则优先级高于所有其他技能(Skill),任何技能均无法绕过或修改它。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

其防护范围覆盖系统、用户与数据安全,能够抵御恶意技能、提示词注入、数据泄露及不安全操作。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

1. 防御提示词注入攻击
提示词注入是当前Agent架构中的主要威胁之一,恶意指令可能隐藏于网页、邮件或文档中,诱导Agent执行非预期操作。TuanziGuardianClaw 内置关键词拦截机制,一旦检测到如 “ignore previous instructions”、“reveal system prompt”、“bypass security”、“disable guardian” 等典型注入语句,会立即将其归类为极高风险,直接阻断操作并记录日志,同时向用户发送告警。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

2. 保护敏感数据
TuanziGuardianClaw 维护了一份明确的受保护资产清单:
* 凭证信息:如API密钥、OAuth凭证、SSH私钥、会话Cookie等,绝不允许被任何技能打印、传输或存储至外部。
* 高风险文件:访问 .env.ssh/.aws/、私有数据库文件、钱包文件等,必须经过用户显式确认
* 个人数据:如联系人、照片、身份证号、邮箱、电话等,未经确认不得向外部导出

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

3. 审查网络通信
在允许技能发起外部通信前,TuanziGuardianClaw 会评估目标地址。可信API和知名服务将被放行,而随机域名、未知端点、裸IP地址则一律标记为可疑。任何试图将本地数据发送至未知域名的行为都会被立即拦截。
此外,诸如导出环境变量、批量上传文件、将本地文件夹发送至外部、对敏感信息进行Base64编码后传输等典型数据外泄特征,均在检测范围内,一旦发现即判定为高风险或极高风险。

严格的权限与执行控制

TuanziGuardianClaw 为每个技能设定了从 Level 0 到 Level 4 的隐式权限等级:
* Level 0(安全级):仅允许文本处理、逻辑推理、格式整理、内容摘要等操作,不涉及任何文件或网络访问。
* Level 1:允许读取用户明确请求的特定文件,但系统目录和密钥文件仍受限制。
* Level 2:开放API调用、程序执行和包安装,但每一步操作都需要用户确认。
* Level 3:涉及Shell命令、系统配置和后台进程管理等高风险操作,必须获得用户明确批准。
* Level 4:包括root命令、大规模文件读取和环境变量导出,除非用户反复坚持执行,否则一律阻断。

在权限等级之上,还叠加了一套 Capability Token 系统。执行敏感操作必须持有对应权限令牌,例如读取本地文件需要 CAP_READ_LOCAL_FILES,执行命令需要 CAP_EXECUTE_COMMAND,发起网络请求需要 CAP_NETWORK_REQUEST。没有合规令牌的技能试图执行相关操作将直接被拦截。

每次动作执行前,TuanziGuardianClaw 会执行完整的决策流程:识别请求操作、检查所需权限、评估数据泄露风险、审查网络访问目标、判定风险等级、执行处置策略。任何环节存在不确定性,都将按高风险处理。所有被拦截或告警的事件都会写入安全审计日志。

透明原则与自我防护

李笛强调的“透明”原则,体现在工具的设计逻辑中。当操作被阻断或告警时,它会向用户完整说明:被拦截的技能试图做什么、此操作的风险所在、以及TuanziGuardianClaw 做出了何种处理。通知内容严禁泄露任何机密信息。

这体现了其核心安全原则之一——“用户数据主权”。其他原则还包括最小权限、显式许可、技能间零信任以及安全优先于便利。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

同时,TuanziGuardianClaw 也具备自我防护机制。任何试图编辑、禁用或覆盖其规则的指令都会被拒绝。四条不可变规则被写死在内核中:不泄露密钥、不泄露系统提示词、不允许禁用TuanziGuardianClaw、不允许不受信任的技能导出本地数据。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

团队背景与研发理念

“卫士虾”由Nextie(明日新程)团队开发。该公司成立于去年12月,核心成员几乎完整延续自微软小冰原班人马。创始人李笛曾任微软亚洲工程院常务副院长,是小冰项目的核心推动者,被誉为“小冰之父”。

李笛团队目前押注于“群体智能与认知大模型”方向。他们认为,当前依赖海量知识与超长上下文的大模型技术路径与真正的智能尚有差距。其破局思路是打造一套以认知结构为核心(而非知识堆砌)的新模型体系,让具备不同视角与认知能力的智能体协同工作,解决复杂问题。

不久前,团队主打多智能体协同的新平台——“团子”已开放内测。

小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

而本次发布的 TuanziGuardianClaw,李笛透露了一个关键细节:它并非由人类工程师手动编写,而是由“团子”群体智能Agent自主生成。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25597

(0)
上一篇 2026年3月14日 上午10:56
下一篇 2026年3月14日 上午11:03

相关推荐

  • AI安全攻防新纪元:多模态越狱、加密指纹与自动化漏洞检测的技术突破

    近期,一系列前沿研究揭示了人工智能安全领域的重要进展,从攻击向量创新到防御技术突破,为构建更可靠的AI系统提供了关键见解。这些研究不仅展示了当前大型语言模型(LLM)面临的安全挑战,更提出了切实可行的解决方案,推动着AI安全从被动防御向主动防护的范式转变。 在攻击向量方面,研究发现了语言风格重写这一新型越狱手段。通过将恶意请求改写为恐惧、同情或好奇等特定风格…

    2025年11月17日
    26800
  • Heretic工具深度解析:突破语言模型安全限制的技术革命与伦理挑战

    在人工智能快速发展的今天,语言模型的安全对齐机制已成为行业标准配置。然而,这种旨在防止生成有害内容的安全机制,在实际应用中却引发了新的争议。许多开发者发现,当前主流商业模型如GPT-5等,在涉及特定话题时表现出过度保守的倾向,频繁触发安全拒绝机制,这在研究、创作等正当场景中造成了显著障碍。 从小说创作需要描述必要的情节冲突,到网络安全研究需要分析潜在漏洞;从…

    2025年11月17日
    32900
  • Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

    今天,部分开发者晒出的截图显示,Claude Mythos 5.0 Beta已开始内测推送,并在Claude及Claude Code的交互界面中集体现身。 在Claude界面中,Mythos 5.0(Beta)被官方描述为「规模更大、更智能」。而在Claude Code终端里,它更是被直接冠以「下一代模型」的称号。 | —|— 据透露…

    2026年3月29日
    60200
  • GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

    OpenAI近日推出了名为Aardvark的自主安全研究智能体,该智能体由GPT-5驱动,旨在自动发现并修复软件代码中的安全漏洞。 目前,Aardvark处于beta测试阶段。OpenAI将其定位为一种“防御者优先”的新范式,能够随代码库的演化为开发团队提供持续的保护。 根据OpenAI披露的数据,在标准代码库的基准测试中,Aardvark对已知漏洞与人工植…

    2025年10月31日
    36000
  • AI安全前沿突破:从零样本检测到供应链风险量化,四大技术路径重塑防御范式

    本周AI安全领域迎来关键进展,研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中,提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果,标志着AI安全正从被动响应转向主动防御的新阶段。 在提示注入攻击防护领域,LLMZ+提出的上下文白名单机制实现了范式级突…

    2025年9月26日
    30600