揭秘Promptware:大模型安全新威胁的“五步杀链”

当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时,可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。

近期,一项由顶尖安全专家进行的研究揭示:针对大模型的攻击已演变为完整的“恶意软件”形态,研究者将其命名为“Promptware”(提示恶意软件)。这类攻击不再是单次的“提示注入”,而是像Stuxnet、NotPetya等传统高级持续性威胁一样,遵循一套完整的“五步杀链”。它能够潜伏、扩散、长期控制大模型系统,最终实现窃取核心数据、操控物理设备甚至转移资金等恶意目标。

揭秘Promptware:大模型安全新威胁的“五步杀链”

来自特拉维夫大学、哈佛大学等机构的研究团队在arXiv上发布的论文《The Promptware Kill Chain》中,首次系统性地拆解了这一新型威胁。本文将用通俗的方式,解析这场正在逼近的企业大模型安全风暴。

别再只盯着“提示注入”!

过去讨论大模型安全,焦点常在于“提示注入”——例如通过“忽略之前的指令”诱导模型执行恶意操作。但英国国家网络安全中心早已警告:将此类攻击简单类比为SQL注入是一种“严重错误”。

论文作者之一、AI安全领域学者Ben Nassi指出:提示注入仅仅是攻击的“敲门砖”,真正的威胁在于多步骤、体系化的Promptware。

简而言之,Promptware是专门针对大模型应用的新型恶意软件。它可以表现为文本、图片、音频等多种形式,其核心是利用大模型架构中“无法区分可信指令与不可信数据”的根本缺陷,通过应用已有的权限触发恶意行为。

与传统提示注入相比,其可怕之处在于:
* 持久化:并非“一锤子买卖”,能够长期潜伏在系统中。
* 扩散性:会主动传播,感染其他用户或关联系统。
* 目标明确:从数据窃取到物理破坏,攻击目标清晰且危害巨大。
* 规避性强:能够绕过传统的输入过滤、安全微调等防护手段。

揭秘Promptware:大模型安全新威胁的“五步杀链”

五步杀伤链:从“敲门”到“攻陷”

研究团队提出的“Promptware五阶段杀链”,清晰地揭示了攻击的完整路径。每一步都精准命中大模型应用的架构弱点,环环相扣。

1. 初始访问:恶意指令悄悄溜进系统

这是攻击的第一步,也是我们最熟悉的“提示注入”阶段,但方式已日趋多样。
* 直接注入:用户直接向大模型发送恶意指令,门槛低。
* 间接注入:更为隐蔽。攻击者将恶意指令隐藏在网页、文档或邮件中,当大模型通过RAG(检索增强生成)功能检索这些内容时,攻击自动触发。一份被污染的文档可能感染所有检索到它的用户。
* 多模态注入:随着多模态大模型普及,攻击也升级了。例如,将恶意文本嵌入图片,即可绕过文本过滤,操控视觉语言模型。

关键问题在于:大模型将所有输入(系统指令、用户消息、检索文档)都视为统一的token序列处理,缺乏天然的边界来区分“指令”和“数据”。这并非可轻易修补的漏洞,而是架构层面的固有缺陷。

2. 权限提升:“越狱”解锁大模型的“隐藏技能”

成功“入门”后,攻击者需让大模型突破安全限制,即“越狱”(Jailbreaking),相当于传统攻击中的“权限提升”。
现代大模型通常经过RLHF(基于人类反馈的强化学习)训练以拒绝有害请求,但攻击者有多种绕开手段:
* 指令覆盖:直接要求模型“忽略之前的安全规则”。
* 角色扮演攻击:诱导模型扮演一个不受约束的角色,如著名的“DAN(Do Anything Now)”。
* 混淆规避:使用ASCII艺术、特殊Unicode字符包装恶意指令,以绕过输入过滤。
* 通用越狱:通过梯度优化生成特殊的token序列,可同时攻破多个主流模型。

一旦越狱成功,大模型便会解锁本应被禁止的能力,为后续攻击铺平道路。

3. 持久化:让恶意指令“赖着不走”

若攻击仅在单次交互中生效,危害有限。Promptware的核心杀招之一是实现“持久化”,即在系统中建立长期立足点,无需反复注入。
两种主流“潜伏”方式:
* RAG依赖型:将恶意payload隐藏在RAG数据库中。只要用户查询相关内容,它就会被检索并执行。例如,Morris II蠕虫将恶意指令藏在邮件里,每次用户用大模型写邮件时,指令都会被检索并复制到新邮件中。
* 内存依赖型:直接篡改大模型的“长期记忆”。例如,攻击ChatGPT的“记忆”功能,让模型将恶意指令存入“保存信息”中,此后每次交互都会自动执行。

更高级的攻击还会建立“命令与控制通道”,让大模型定期从攻击者服务器获取新指令,实现攻击目标的动态更新。

4. 横向移动:从一个系统扩散到一片

实现持久化后,Promptware会像病毒一样扩散,即“横向移动”。它利用的是企业大模型应用互联互通的特性。
三种典型的扩散方式:
* 自我复制型:让被感染的大模型在输出内容中嵌入恶意指令。例如,邮件助手将毒指令写入新邮件,扩散给收件人。
* 权限滥用型:利用大模型已有的高权限“跨界”行动。例如,攻陷智能助理后,可操控智能家居、启动会议软件监控或窃取浏览器数据。
* 管道穿越型:顺着企业数据流扩散。例如,将恶意指令藏在客服工单中,工单同步至项目管理工具后,又被开发者的AI编码工具检索,最终攻陷内部代码库。

5. 目标行动:最终的恶意收割

这是攻击的最后一步,也是攻击者的终极目的。大模型的权限范围决定了其危害的广度:
* 数据泄露:窃取企业机密、用户隐私,甚至跨服务转移数据。
* 社会工程学攻击:模仿用户口吻撰写钓鱼邮件,利用内部通道发送恶意链接。
* 物理影响:操控智能办公设备(如开关门窗、照明),甚至影响工业控制系统。
* 财务损失:诱导金融大模型转移资金(已有案例造成10.5万美元损失),或让企业AI以超低价出售产品。
* 远程代码执行:操控具备代码解释器功能的大模型执行恶意代码,完全接管服务器。

真实案例:这些攻击已经发生

研究团队梳理了多个已公开的Promptware攻击案例,每一个都印证了上述杀伤链的可行性。

揭秘Promptware:大模型安全新威胁的“五步杀链”

面对体系化的Promptware攻击,传统防御手段已然失效。而论文提出的杀伤链框架,恰恰为企业提供了防御思路——针对每个阶段设置防线,层层拦截。以下是三个核心防御建议:

1. 放弃“一刀切”思维,实施针对性防御

  • 初始访问阶段:不仅过滤文本输入,还需防范多模态注入和间接注入,尤其要严格审查RAG检索的外部内容。
  • 权限提升阶段:定期测试模型的抗越狱能力,对代码执行、资金操作等高危场景设置独立的安全校验流程。
  • 持久化阶段:监控RAG数据库和模型长期记忆的变更,建立异常内容检测机制。
  • 横向移动阶段:遵循“最小权限原则”,限制大模型的跨系统访问权限,防止单点突破导致全线失守。
  • 目标行动阶段:对转账、批量数据导出等高危操作设置强制人工审核环节,禁止大模型独立执行。

2. 从架构层面弥补根本缺陷

针对大模型“无法区分指令和数据”的架构缺陷,企业可以:
* 在应用层建立“指令-数据”隔离机制,例如对系统指令进行特殊标记并确保其优先执行且不可被覆盖。
* 对RAG检索结果进行二次安全过滤,剔除可疑的指令性内容。
* 定期审计与清理模型的长期记忆,移除未授权的持久化内容。

3. 建立基于威胁建模的防护体系

利用Promptware杀伤链框架,系统性地梳理企业大模型的攻击面:
* 哪些功能可能成为攻击者的初始访问入口?
* 模型拥有哪些高权限操作需要重点限制?
* 企业内部数据流转路径中,哪些环节容易被利用进行横向移动?
* 最可能遭受哪些类型的目标行动攻击?

通过提前识别关键风险点,实现有的放矢的防御。

结语:大模型安全,早已不是“模型层面”的事

随着大模型从单纯的对话工具,演进为能够执行代码、操控设备、处理交易的多功能“智能体”,其安全边界也在急剧扩展。Promptware的出现,标志着针对大模型的攻击正式进入了“恶意软件时代”。

正如哈佛大学网络安全专家 Bruce Schneier 所言:“大模型的安全问题,本质上是生态系统的安全问题。” 这涉及模型架构、应用设计、权限管理、数据流转等多个环节,任何一个环节的漏洞都可能被攻击者利用。

对于企业而言,当前面临的已非“是否要防御”的疑问,而是“如何体系化防御”的挑战。Promptware 攻击链框架的价值,正在于将模糊的威胁具象化——当我们能够清晰洞察攻击的每一步,便能在每个环节构建起有效的防线。

毕竟,大模型的能力越强大,其安全的“护城河”就需要挖得越深。在这场持续的攻防博弈中,唯有先洞悉对手的套路,才能掌握真正的主动权。

  • IBM 最新研究曝光!网络安全小模型碾压 GPT-4o,CyberPal挑战闭源模型登顶
  • 勒索软件杀到3.0时代:LLM当全自动攻击指挥官,传统杀毒软件直接失灵
  • 2025AI合规“超级年”:15份法规标准织密安全网,企业落地必看指南
  • AI安全周刊【2026-01-12】
  • AI安全周刊【2026-01-05】
  • AI安全周刊【2025-12-29】
  • AI安全周刊【2025-12-22】
  • AI安全周刊【2025-12-15】
  • AI安全周刊【2025-12-08】
  • AI安全周刊【2025-12-01】
  • AI安全周刊【2025-11-24】
  • AI安全周刊【2025-11-17】
  • AI安全周刊【2025-11-10】
  • AI安全周刊【2025-11-03】
  • 【2025-10-27】AI安全周报
  • 【2025-10-20】AI安全周报
  • 【2025-10-13】AI安全周报
  • 【2025-10-06】AI安全周报
  • 【2025-09-26】AI安全周报
  • 【2025-09-19】AI安全周报
  • 【2025-09-12】AI安全周报
  • 【2025-09-05】AI安全周报

  • 【2025-08-29】AI安全周报

  • 【2025-08-22】AI安全周报
  • 【2025-08-15】AI安全周报
  • 【2025-08-08】AI安全周报
  • 【2025-08-01】AI安全周报
  • 【2025-07-25】AI安全周报
  • 【2025-07-18】AI安全周报

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19048

(0)
上一篇 2026年1月23日 下午4:51
下一篇 2026年1月23日 下午7:33

相关推荐

  • AGI的物理边界:两位专家激辩人工智能的终极天花板

    大模型的通用性和泛化能力正变得越来越强。 尽管一些新模型,例如在专业任务和智能水平上已达到出色水准的GPT-5.2,距离我们认知中的通用人工智能(AGI)仍然十分遥远。 然而,这也反映出人们对AGI依然抱有巨大的热情和信心,或许下一款重磅模型就能初步实现AGI的构想。 不过,近期卡耐基梅隆大学教授、AI2研究科学家Tim Dettmers发表了一篇题为《Wh…

    2025年12月21日
    23900
  • AI数学推理新突破:Harmonic模型独立证明Erdős问题简易版,开启数学证明新范式

    近日,数学与人工智能交叉领域迎来一项里程碑式进展——AI研究公司Harmonic开发的数学推理模型Aristotle,独立证明了困扰数学家近30年的Erdős问题#124的简易版本。这一突破不仅展示了AI在复杂数学推理方面的强大能力,更可能预示着数学研究范式的深刻变革。 **数学难题的AI解法** Erdős问题#124是一个典型的组合数论问题,其核心在于探…

    2025年12月1日
    18800
  • TRAE SOLO正式版深度解析:从上下文工程到响应式编程智能体的范式跃迁

    在2025年AI编程工具激烈竞争的格局下,TRAE SOLO正式版的发布标志着国产AI IDE在复杂项目开发能力上实现了关键突破。作为TRAE国际版的核心功能升级,SOLO模式从7月的Beta测试到11月的正式发布,历经三个多月的迭代优化,最终以”The Responsive Coding Agent”(具备响应感知的编程智能体)的全…

    2025年11月13日
    18300
  • 掩码扩散语言模型:超越自回归范式,解锁推理与采样的新潜能

    在自然语言处理领域,自回归(AR)语言模型长期占据主导地位,其从左到右顺序生成token的方式已成为标准范式。然而,这种单向生成机制在推理效率、并行化能力和任务适应性方面存在固有局限。近年来,掩码扩散语言模型(MDLM)作为一种新兴架构,通过随机遮蔽序列位置并学习填充被掩码区域,为语言建模提供了全新的视角。本文将从技术原理、性能表现、创新应用三个维度,深入分…

    2025年10月30日
    18200
  • T-MAN:NPU大模型推理的革命性方案,解码速度提升3.1倍,能效比领先84%

    关键词:T-MAN、查找表 、 低比特量化 、NPU 推理 、端到端优化 当大模型遇上手机 NPU,推理速度反而比 CPU 还慢?USTC、微软研究院、清华等研究团队提出统一查找表方案 ,同时解决速度、能耗与精度三大难题。 近年来,大语言模型(LLM)正逐步“入住”我们的手机、电脑等消费设备。无论是苹果的 Apple Intelligence、谷歌的 Gem…

    2026年1月14日
    18900