揭秘Promptware:大模型安全新威胁的“五步杀链”

当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时,可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。

近期,一项由顶尖安全专家进行的研究揭示:针对大模型的攻击已演变为完整的“恶意软件”形态,研究者将其命名为“Promptware”(提示恶意软件)。这类攻击不再是单次的“提示注入”,而是像Stuxnet、NotPetya等传统高级持续性威胁一样,遵循一套完整的“五步杀链”。它能够潜伏、扩散、长期控制大模型系统,最终实现窃取核心数据、操控物理设备甚至转移资金等恶意目标。

揭秘Promptware:大模型安全新威胁的“五步杀链”

来自特拉维夫大学、哈佛大学等机构的研究团队在arXiv上发布的论文《The Promptware Kill Chain》中,首次系统性地拆解了这一新型威胁。本文将用通俗的方式,解析这场正在逼近的企业大模型安全风暴。

别再只盯着“提示注入”!

过去讨论大模型安全,焦点常在于“提示注入”——例如通过“忽略之前的指令”诱导模型执行恶意操作。但英国国家网络安全中心早已警告:将此类攻击简单类比为SQL注入是一种“严重错误”。

论文作者之一、AI安全领域学者Ben Nassi指出:提示注入仅仅是攻击的“敲门砖”,真正的威胁在于多步骤、体系化的Promptware。

简而言之,Promptware是专门针对大模型应用的新型恶意软件。它可以表现为文本、图片、音频等多种形式,其核心是利用大模型架构中“无法区分可信指令与不可信数据”的根本缺陷,通过应用已有的权限触发恶意行为。

与传统提示注入相比,其可怕之处在于:
* 持久化:并非“一锤子买卖”,能够长期潜伏在系统中。
* 扩散性:会主动传播,感染其他用户或关联系统。
* 目标明确:从数据窃取到物理破坏,攻击目标清晰且危害巨大。
* 规避性强:能够绕过传统的输入过滤、安全微调等防护手段。

揭秘Promptware:大模型安全新威胁的“五步杀链”

五步杀伤链:从“敲门”到“攻陷”

研究团队提出的“Promptware五阶段杀链”,清晰地揭示了攻击的完整路径。每一步都精准命中大模型应用的架构弱点,环环相扣。

1. 初始访问:恶意指令悄悄溜进系统

这是攻击的第一步,也是我们最熟悉的“提示注入”阶段,但方式已日趋多样。
* 直接注入:用户直接向大模型发送恶意指令,门槛低。
* 间接注入:更为隐蔽。攻击者将恶意指令隐藏在网页、文档或邮件中,当大模型通过RAG(检索增强生成)功能检索这些内容时,攻击自动触发。一份被污染的文档可能感染所有检索到它的用户。
* 多模态注入:随着多模态大模型普及,攻击也升级了。例如,将恶意文本嵌入图片,即可绕过文本过滤,操控视觉语言模型。

关键问题在于:大模型将所有输入(系统指令、用户消息、检索文档)都视为统一的token序列处理,缺乏天然的边界来区分“指令”和“数据”。这并非可轻易修补的漏洞,而是架构层面的固有缺陷。

2. 权限提升:“越狱”解锁大模型的“隐藏技能”

成功“入门”后,攻击者需让大模型突破安全限制,即“越狱”(Jailbreaking),相当于传统攻击中的“权限提升”。
现代大模型通常经过RLHF(基于人类反馈的强化学习)训练以拒绝有害请求,但攻击者有多种绕开手段:
* 指令覆盖:直接要求模型“忽略之前的安全规则”。
* 角色扮演攻击:诱导模型扮演一个不受约束的角色,如著名的“DAN(Do Anything Now)”。
* 混淆规避:使用ASCII艺术、特殊Unicode字符包装恶意指令,以绕过输入过滤。
* 通用越狱:通过梯度优化生成特殊的token序列,可同时攻破多个主流模型。

一旦越狱成功,大模型便会解锁本应被禁止的能力,为后续攻击铺平道路。

3. 持久化:让恶意指令“赖着不走”

若攻击仅在单次交互中生效,危害有限。Promptware的核心杀招之一是实现“持久化”,即在系统中建立长期立足点,无需反复注入。
两种主流“潜伏”方式:
* RAG依赖型:将恶意payload隐藏在RAG数据库中。只要用户查询相关内容,它就会被检索并执行。例如,Morris II蠕虫将恶意指令藏在邮件里,每次用户用大模型写邮件时,指令都会被检索并复制到新邮件中。
* 内存依赖型:直接篡改大模型的“长期记忆”。例如,攻击ChatGPT的“记忆”功能,让模型将恶意指令存入“保存信息”中,此后每次交互都会自动执行。

更高级的攻击还会建立“命令与控制通道”,让大模型定期从攻击者服务器获取新指令,实现攻击目标的动态更新。

4. 横向移动:从一个系统扩散到一片

实现持久化后,Promptware会像病毒一样扩散,即“横向移动”。它利用的是企业大模型应用互联互通的特性。
三种典型的扩散方式:
* 自我复制型:让被感染的大模型在输出内容中嵌入恶意指令。例如,邮件助手将毒指令写入新邮件,扩散给收件人。
* 权限滥用型:利用大模型已有的高权限“跨界”行动。例如,攻陷智能助理后,可操控智能家居、启动会议软件监控或窃取浏览器数据。
* 管道穿越型:顺着企业数据流扩散。例如,将恶意指令藏在客服工单中,工单同步至项目管理工具后,又被开发者的AI编码工具检索,最终攻陷内部代码库。

5. 目标行动:最终的恶意收割

这是攻击的最后一步,也是攻击者的终极目的。大模型的权限范围决定了其危害的广度:
* 数据泄露:窃取企业机密、用户隐私,甚至跨服务转移数据。
* 社会工程学攻击:模仿用户口吻撰写钓鱼邮件,利用内部通道发送恶意链接。
* 物理影响:操控智能办公设备(如开关门窗、照明),甚至影响工业控制系统。
* 财务损失:诱导金融大模型转移资金(已有案例造成10.5万美元损失),或让企业AI以超低价出售产品。
* 远程代码执行:操控具备代码解释器功能的大模型执行恶意代码,完全接管服务器。

真实案例:这些攻击已经发生

研究团队梳理了多个已公开的Promptware攻击案例,每一个都印证了上述杀伤链的可行性。

揭秘Promptware:大模型安全新威胁的“五步杀链”

面对体系化的Promptware攻击,传统防御手段已然失效。而论文提出的杀伤链框架,恰恰为企业提供了防御思路——针对每个阶段设置防线,层层拦截。以下是三个核心防御建议:

1. 放弃“一刀切”思维,实施针对性防御

  • 初始访问阶段:不仅过滤文本输入,还需防范多模态注入和间接注入,尤其要严格审查RAG检索的外部内容。
  • 权限提升阶段:定期测试模型的抗越狱能力,对代码执行、资金操作等高危场景设置独立的安全校验流程。
  • 持久化阶段:监控RAG数据库和模型长期记忆的变更,建立异常内容检测机制。
  • 横向移动阶段:遵循“最小权限原则”,限制大模型的跨系统访问权限,防止单点突破导致全线失守。
  • 目标行动阶段:对转账、批量数据导出等高危操作设置强制人工审核环节,禁止大模型独立执行。

2. 从架构层面弥补根本缺陷

针对大模型“无法区分指令和数据”的架构缺陷,企业可以:
* 在应用层建立“指令-数据”隔离机制,例如对系统指令进行特殊标记并确保其优先执行且不可被覆盖。
* 对RAG检索结果进行二次安全过滤,剔除可疑的指令性内容。
* 定期审计与清理模型的长期记忆,移除未授权的持久化内容。

3. 建立基于威胁建模的防护体系

利用Promptware杀伤链框架,系统性地梳理企业大模型的攻击面:
* 哪些功能可能成为攻击者的初始访问入口?
* 模型拥有哪些高权限操作需要重点限制?
* 企业内部数据流转路径中,哪些环节容易被利用进行横向移动?
* 最可能遭受哪些类型的目标行动攻击?

通过提前识别关键风险点,实现有的放矢的防御。

结语:大模型安全,早已不是“模型层面”的事

随着大模型从单纯的对话工具,演进为能够执行代码、操控设备、处理交易的多功能“智能体”,其安全边界也在急剧扩展。Promptware的出现,标志着针对大模型的攻击正式进入了“恶意软件时代”。

正如哈佛大学网络安全专家 Bruce Schneier 所言:“大模型的安全问题,本质上是生态系统的安全问题。” 这涉及模型架构、应用设计、权限管理、数据流转等多个环节,任何一个环节的漏洞都可能被攻击者利用。

对于企业而言,当前面临的已非“是否要防御”的疑问,而是“如何体系化防御”的挑战。Promptware 攻击链框架的价值,正在于将模糊的威胁具象化——当我们能够清晰洞察攻击的每一步,便能在每个环节构建起有效的防线。

毕竟,大模型的能力越强大,其安全的“护城河”就需要挖得越深。在这场持续的攻防博弈中,唯有先洞悉对手的套路,才能掌握真正的主动权。

  • IBM 最新研究曝光!网络安全小模型碾压 GPT-4o,CyberPal挑战闭源模型登顶
  • 勒索软件杀到3.0时代:LLM当全自动攻击指挥官,传统杀毒软件直接失灵
  • 2025AI合规“超级年”:15份法规标准织密安全网,企业落地必看指南
  • AI安全周刊【2026-01-12】
  • AI安全周刊【2026-01-05】
  • AI安全周刊【2025-12-29】
  • AI安全周刊【2025-12-22】
  • AI安全周刊【2025-12-15】
  • AI安全周刊【2025-12-08】
  • AI安全周刊【2025-12-01】
  • AI安全周刊【2025-11-24】
  • AI安全周刊【2025-11-17】
  • AI安全周刊【2025-11-10】
  • AI安全周刊【2025-11-03】
  • 【2025-10-27】AI安全周报
  • 【2025-10-20】AI安全周报
  • 【2025-10-13】AI安全周报
  • 【2025-10-06】AI安全周报
  • 【2025-09-26】AI安全周报
  • 【2025-09-19】AI安全周报
  • 【2025-09-12】AI安全周报
  • 【2025-09-05】AI安全周报

  • 【2025-08-29】AI安全周报

  • 【2025-08-22】AI安全周报
  • 【2025-08-15】AI安全周报
  • 【2025-08-08】AI安全周报
  • 【2025-08-01】AI安全周报
  • 【2025-07-25】AI安全周报
  • 【2025-07-18】AI安全周报

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19048

(0)
上一篇 2026年1月23日 下午4:51
下一篇 2026年1月23日 下午7:33

相关推荐

  • 12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

    近日,部分L3级自动驾驶车型已获准上路,标志着我国自动驾驶产业进入新阶段。 然而,当自动驾驶汽车在高速行驶时,若前方出现一个外观看似正常、实则为恶意生成的纹理障碍物,车辆的感知系统可能无法准确识别,导致错判或漏判,从而引发严重事故。 这类能够诱导智能系统、并可在现实世界中复现的纹理,被称为物理对抗样本(PAE, Physical Adversarial Ex…

    2025年12月28日
    10000
  • AI安全前沿突破:从零样本检测到供应链风险量化,四大技术路径重塑防御范式

    本周AI安全领域迎来关键进展,研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中,提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果,标志着AI安全正从被动响应转向主动防御的新阶段。 在提示注入攻击防护领域,LLMZ+提出的上下文白名单机制实现了范式级突…

    2025年9月26日
    7000
  • React2Shell漏洞遭810万次攻击:云基础设施成黑客掩护,动态防御成关键

    React2Shell 漏洞(CVE-2025-55182)持续遭受利用攻击,自首次泄露以来,威胁行为者已发起超过 810 万次攻击。根据 GreyNoise Observation Grid 数据,自 12 月底达到 43 万次以上的峰值以来,日攻击量已稳定在 30 万至 40 万次会话之间,表明存在持续且协调的利用活动。 该活动的基础设施布局展现出一种复…

    大模型安全 2026年1月14日
    7600
  • DeepSeek爆火背后的安全隐忧:从模型下载到部署运营的全链路风险剖析

    近几个月,国产开源大模型DeepSeek凭借“小参数、高性能”的显著优势迅速席卷市场,引发了企业私有化部署需求的激增。然而,在这股AI应用热潮的背后,却暗藏着不容忽视的安全风险。最新数据显示,高达88.9%的企业在部署AI服务器时未采取任何基础安全措施,而像Ollama这类默认未启用安全认证的流行框架,更使得企业服务器如同“大门敞开”,暴露于多重威胁之下。本…

    2025年3月10日
    9600
  • Anthropic突破性技术:参数隔离实现AI危险能力精准移除,无需数据过滤

    近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 为此,研究者通常会在后训练阶段加入拒答机制等安全措施,希望阻断这些能力的滥用。然而事实证明,面对刻意规避的攻击者,这…

    2025年12月20日
    8900