揭秘Promptware：大模型安全新威胁的“五步杀链”

当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时，可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。

近期，一项由顶尖安全专家进行的研究揭示：针对大模型的攻击已演变为完整的“恶意软件”形态，研究者将其命名为“Promptware”（提示恶意软件）。这类攻击不再是单次的“提示注入”，而是像Stuxnet、NotPetya等传统高级持续性威胁一样，遵循一套完整的“五步杀链”。它能够潜伏、扩散、长期控制大模型系统，最终实现窃取核心数据、操控物理设备甚至转移资金等恶意目标。

来自特拉维夫大学、哈佛大学等机构的研究团队在arXiv上发布的论文《The Promptware Kill Chain》中，首次系统性地拆解了这一新型威胁。本文将用通俗的方式，解析这场正在逼近的企业大模型安全风暴。

别再只盯着“提示注入”！

过去讨论大模型安全，焦点常在于“提示注入”——例如通过“忽略之前的指令”诱导模型执行恶意操作。但英国国家网络安全中心早已警告：将此类攻击简单类比为SQL注入是一种“严重错误”。

论文作者之一、AI安全领域学者Ben Nassi指出：提示注入仅仅是攻击的“敲门砖”，真正的威胁在于多步骤、体系化的Promptware。

简而言之，Promptware是专门针对大模型应用的新型恶意软件。它可以表现为文本、图片、音频等多种形式，其核心是利用大模型架构中“无法区分可信指令与不可信数据”的根本缺陷，通过应用已有的权限触发恶意行为。

与传统提示注入相比，其可怕之处在于：
* 持久化：并非“一锤子买卖”，能够长期潜伏在系统中。
* 扩散性：会主动传播，感染其他用户或关联系统。
* 目标明确：从数据窃取到物理破坏，攻击目标清晰且危害巨大。
* 规避性强：能够绕过传统的输入过滤、安全微调等防护手段。

五步杀伤链：从“敲门”到“攻陷”

研究团队提出的“Promptware五阶段杀链”，清晰地揭示了攻击的完整路径。每一步都精准命中大模型应用的架构弱点，环环相扣。

1. 初始访问：恶意指令悄悄溜进系统

这是攻击的第一步，也是我们最熟悉的“提示注入”阶段，但方式已日趋多样。
* 直接注入：用户直接向大模型发送恶意指令，门槛低。
* 间接注入：更为隐蔽。攻击者将恶意指令隐藏在网页、文档或邮件中，当大模型通过RAG（检索增强生成）功能检索这些内容时，攻击自动触发。一份被污染的文档可能感染所有检索到它的用户。
* 多模态注入：随着多模态大模型普及，攻击也升级了。例如，将恶意文本嵌入图片，即可绕过文本过滤，操控视觉语言模型。

关键问题在于：大模型将所有输入（系统指令、用户消息、检索文档）都视为统一的token序列处理，缺乏天然的边界来区分“指令”和“数据”。这并非可轻易修补的漏洞，而是架构层面的固有缺陷。

2. 权限提升：“越狱”解锁大模型的“隐藏技能”

成功“入门”后，攻击者需让大模型突破安全限制，即“越狱”（Jailbreaking），相当于传统攻击中的“权限提升”。
现代大模型通常经过RLHF（基于人类反馈的强化学习）训练以拒绝有害请求，但攻击者有多种绕开手段：
* 指令覆盖：直接要求模型“忽略之前的安全规则”。
* 角色扮演攻击：诱导模型扮演一个不受约束的角色，如著名的“DAN（Do Anything Now）”。
* 混淆规避：使用ASCII艺术、特殊Unicode字符包装恶意指令，以绕过输入过滤。
* 通用越狱：通过梯度优化生成特殊的token序列，可同时攻破多个主流模型。

一旦越狱成功，大模型便会解锁本应被禁止的能力，为后续攻击铺平道路。

3. 持久化：让恶意指令“赖着不走”

若攻击仅在单次交互中生效，危害有限。Promptware的核心杀招之一是实现“持久化”，即在系统中建立长期立足点，无需反复注入。
两种主流“潜伏”方式：
* RAG依赖型：将恶意payload隐藏在RAG数据库中。只要用户查询相关内容，它就会被检索并执行。例如，Morris II蠕虫将恶意指令藏在邮件里，每次用户用大模型写邮件时，指令都会被检索并复制到新邮件中。
* 内存依赖型：直接篡改大模型的“长期记忆”。例如，攻击ChatGPT的“记忆”功能，让模型将恶意指令存入“保存信息”中，此后每次交互都会自动执行。

更高级的攻击还会建立“命令与控制通道”，让大模型定期从攻击者服务器获取新指令，实现攻击目标的动态更新。

4. 横向移动：从一个系统扩散到一片

实现持久化后，Promptware会像病毒一样扩散，即“横向移动”。它利用的是企业大模型应用互联互通的特性。
三种典型的扩散方式：
* 自我复制型：让被感染的大模型在输出内容中嵌入恶意指令。例如，邮件助手将毒指令写入新邮件，扩散给收件人。
* 权限滥用型：利用大模型已有的高权限“跨界”行动。例如，攻陷智能助理后，可操控智能家居、启动会议软件监控或窃取浏览器数据。
* 管道穿越型：顺着企业数据流扩散。例如，将恶意指令藏在客服工单中，工单同步至项目管理工具后，又被开发者的AI编码工具检索，最终攻陷内部代码库。

5. 目标行动：最终的恶意收割

这是攻击的最后一步，也是攻击者的终极目的。大模型的权限范围决定了其危害的广度：
* 数据泄露：窃取企业机密、用户隐私，甚至跨服务转移数据。
* 社会工程学攻击：模仿用户口吻撰写钓鱼邮件，利用内部通道发送恶意链接。
* 物理影响：操控智能办公设备（如开关门窗、照明），甚至影响工业控制系统。
* 财务损失：诱导金融大模型转移资金（已有案例造成10.5万美元损失），或让企业AI以超低价出售产品。
* 远程代码执行：操控具备代码解释器功能的大模型执行恶意代码，完全接管服务器。

真实案例：这些攻击已经发生

研究团队梳理了多个已公开的Promptware攻击案例，每一个都印证了上述杀伤链的可行性。

面对体系化的Promptware攻击，传统防御手段已然失效。而论文提出的杀伤链框架，恰恰为企业提供了防御思路——针对每个阶段设置防线，层层拦截。以下是三个核心防御建议：

1. 放弃“一刀切”思维，实施针对性防御

初始访问阶段：不仅过滤文本输入，还需防范多模态注入和间接注入，尤其要严格审查RAG检索的外部内容。
权限提升阶段：定期测试模型的抗越狱能力，对代码执行、资金操作等高危场景设置独立的安全校验流程。
持久化阶段：监控RAG数据库和模型长期记忆的变更，建立异常内容检测机制。
横向移动阶段：遵循“最小权限原则”，限制大模型的跨系统访问权限，防止单点突破导致全线失守。
目标行动阶段：对转账、批量数据导出等高危操作设置强制人工审核环节，禁止大模型独立执行。

2. 从架构层面弥补根本缺陷

针对大模型“无法区分指令和数据”的架构缺陷，企业可以：
* 在应用层建立“指令-数据”隔离机制，例如对系统指令进行特殊标记并确保其优先执行且不可被覆盖。
* 对RAG检索结果进行二次安全过滤，剔除可疑的指令性内容。
* 定期审计与清理模型的长期记忆，移除未授权的持久化内容。

3. 建立基于威胁建模的防护体系

利用Promptware杀伤链框架，系统性地梳理企业大模型的攻击面：
* 哪些功能可能成为攻击者的初始访问入口？
* 模型拥有哪些高权限操作需要重点限制？
* 企业内部数据流转路径中，哪些环节容易被利用进行横向移动？
* 最可能遭受哪些类型的目标行动攻击？

通过提前识别关键风险点，实现有的放矢的防御。

结语：大模型安全，早已不是“模型层面”的事

随着大模型从单纯的对话工具，演进为能够执行代码、操控设备、处理交易的多功能“智能体”，其安全边界也在急剧扩展。Promptware的出现，标志着针对大模型的攻击正式进入了“恶意软件时代”。

正如哈佛大学网络安全专家 Bruce Schneier 所言：“大模型的安全问题，本质上是生态系统的安全问题。” 这涉及模型架构、应用设计、权限管理、数据流转等多个环节，任何一个环节的漏洞都可能被攻击者利用。

对于企业而言，当前面临的已非“是否要防御”的疑问，而是“如何体系化防御”的挑战。Promptware 攻击链框架的价值，正在于将模糊的威胁具象化——当我们能够清晰洞察攻击的每一步，便能在每个环节构建起有效的防线。

毕竟，大模型的能力越强大，其安全的“护城河”就需要挖得越深。在这场持续的攻防博弈中，唯有先洞悉对手的套路，才能掌握真正的主动权。

IBM 最新研究曝光！网络安全小模型碾压 GPT-4o，CyberPal挑战闭源模型登顶
勒索软件杀到3.0时代：LLM当全自动攻击指挥官，传统杀毒软件直接失灵
2025AI合规“超级年”：15份法规标准织密安全网，企业落地必看指南
AI安全周刊【2026-01-12】
AI安全周刊【2026-01-05】
AI安全周刊【2025-12-29】
AI安全周刊【2025-12-22】
AI安全周刊【2025-12-15】
AI安全周刊【2025-12-08】
AI安全周刊【2025-12-01】
AI安全周刊【2025-11-24】
AI安全周刊【2025-11-17】
AI安全周刊【2025-11-10】
AI安全周刊【2025-11-03】
【2025-10-27】AI安全周报
【2025-10-20】AI安全周报
【2025-10-13】AI安全周报
【2025-10-06】AI安全周报
【2025-09-26】AI安全周报
【2025-09-19】AI安全周报
【2025-09-12】AI安全周报
【2025-09-05】AI安全周报
【2025-08-29】AI安全周报
【2025-08-22】AI安全周报
【2025-08-15】AI安全周报
【2025-08-08】AI安全周报
【2025-08-01】AI安全周报
【2025-07-25】AI安全周报
【2025-07-18】AI安全周报

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19048

揭秘Promptware：大模型安全新威胁的“五步杀链”

别再只盯着“提示注入”！

五步杀伤链：从“敲门”到“攻陷”

1. 初始访问：恶意指令悄悄溜进系统

2. 权限提升：“越狱”解锁大模型的“隐藏技能”

3. 持久化：让恶意指令“赖着不走”

4. 横向移动：从一个系统扩散到一片

5. 目标行动：最终的恶意收割

真实案例：这些攻击已经发生

1. 放弃“一刀切”思维，实施针对性防御

2. 从架构层面弥补根本缺陷

3. 建立基于威胁建模的防护体系

结语：大模型安全，早已不是“模型层面”的事

相关推荐

AGI的物理边界：两位专家激辩人工智能的终极天花板

AI数学推理新突破：Harmonic模型独立证明Erdős问题简易版，开启数学证明新范式

TRAE SOLO正式版深度解析：从上下文工程到响应式编程智能体的范式跃迁

掩码扩散语言模型：超越自回归范式，解锁推理与采样的新潜能

T-MAN：NPU大模型推理的革命性方案，解码速度提升3.1倍，能效比领先84%