揭秘Promptware:大模型安全新威胁的“五步杀链”

当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时,可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。

近期,一项由顶尖安全专家进行的研究揭示:针对大模型的攻击已演变为完整的“恶意软件”形态,研究者将其命名为“Promptware”(提示恶意软件)。这类攻击不再是单次的“提示注入”,而是像Stuxnet、NotPetya等传统高级持续性威胁一样,遵循一套完整的“五步杀链”。它能够潜伏、扩散、长期控制大模型系统,最终实现窃取核心数据、操控物理设备甚至转移资金等恶意目标。

揭秘Promptware:大模型安全新威胁的“五步杀链”

来自特拉维夫大学、哈佛大学等机构的研究团队在arXiv上发布的论文《The Promptware Kill Chain》中,首次系统性地拆解了这一新型威胁。本文将用通俗的方式,解析这场正在逼近的企业大模型安全风暴。

别再只盯着“提示注入”!

过去讨论大模型安全,焦点常在于“提示注入”——例如通过“忽略之前的指令”诱导模型执行恶意操作。但英国国家网络安全中心早已警告:将此类攻击简单类比为SQL注入是一种“严重错误”。

论文作者之一、AI安全领域学者Ben Nassi指出:提示注入仅仅是攻击的“敲门砖”,真正的威胁在于多步骤、体系化的Promptware。

简而言之,Promptware是专门针对大模型应用的新型恶意软件。它可以表现为文本、图片、音频等多种形式,其核心是利用大模型架构中“无法区分可信指令与不可信数据”的根本缺陷,通过应用已有的权限触发恶意行为。

与传统提示注入相比,其可怕之处在于:
* 持久化:并非“一锤子买卖”,能够长期潜伏在系统中。
* 扩散性:会主动传播,感染其他用户或关联系统。
* 目标明确:从数据窃取到物理破坏,攻击目标清晰且危害巨大。
* 规避性强:能够绕过传统的输入过滤、安全微调等防护手段。

揭秘Promptware:大模型安全新威胁的“五步杀链”

五步杀伤链:从“敲门”到“攻陷”

研究团队提出的“Promptware五阶段杀链”,清晰地揭示了攻击的完整路径。每一步都精准命中大模型应用的架构弱点,环环相扣。

1. 初始访问:恶意指令悄悄溜进系统

这是攻击的第一步,也是我们最熟悉的“提示注入”阶段,但方式已日趋多样。
* 直接注入:用户直接向大模型发送恶意指令,门槛低。
* 间接注入:更为隐蔽。攻击者将恶意指令隐藏在网页、文档或邮件中,当大模型通过RAG(检索增强生成)功能检索这些内容时,攻击自动触发。一份被污染的文档可能感染所有检索到它的用户。
* 多模态注入:随着多模态大模型普及,攻击也升级了。例如,将恶意文本嵌入图片,即可绕过文本过滤,操控视觉语言模型。

关键问题在于:大模型将所有输入(系统指令、用户消息、检索文档)都视为统一的token序列处理,缺乏天然的边界来区分“指令”和“数据”。这并非可轻易修补的漏洞,而是架构层面的固有缺陷。

2. 权限提升:“越狱”解锁大模型的“隐藏技能”

成功“入门”后,攻击者需让大模型突破安全限制,即“越狱”(Jailbreaking),相当于传统攻击中的“权限提升”。
现代大模型通常经过RLHF(基于人类反馈的强化学习)训练以拒绝有害请求,但攻击者有多种绕开手段:
* 指令覆盖:直接要求模型“忽略之前的安全规则”。
* 角色扮演攻击:诱导模型扮演一个不受约束的角色,如著名的“DAN(Do Anything Now)”。
* 混淆规避:使用ASCII艺术、特殊Unicode字符包装恶意指令,以绕过输入过滤。
* 通用越狱:通过梯度优化生成特殊的token序列,可同时攻破多个主流模型。

一旦越狱成功,大模型便会解锁本应被禁止的能力,为后续攻击铺平道路。

3. 持久化:让恶意指令“赖着不走”

若攻击仅在单次交互中生效,危害有限。Promptware的核心杀招之一是实现“持久化”,即在系统中建立长期立足点,无需反复注入。
两种主流“潜伏”方式:
* RAG依赖型:将恶意payload隐藏在RAG数据库中。只要用户查询相关内容,它就会被检索并执行。例如,Morris II蠕虫将恶意指令藏在邮件里,每次用户用大模型写邮件时,指令都会被检索并复制到新邮件中。
* 内存依赖型:直接篡改大模型的“长期记忆”。例如,攻击ChatGPT的“记忆”功能,让模型将恶意指令存入“保存信息”中,此后每次交互都会自动执行。

更高级的攻击还会建立“命令与控制通道”,让大模型定期从攻击者服务器获取新指令,实现攻击目标的动态更新。

4. 横向移动:从一个系统扩散到一片

实现持久化后,Promptware会像病毒一样扩散,即“横向移动”。它利用的是企业大模型应用互联互通的特性。
三种典型的扩散方式:
* 自我复制型:让被感染的大模型在输出内容中嵌入恶意指令。例如,邮件助手将毒指令写入新邮件,扩散给收件人。
* 权限滥用型:利用大模型已有的高权限“跨界”行动。例如,攻陷智能助理后,可操控智能家居、启动会议软件监控或窃取浏览器数据。
* 管道穿越型:顺着企业数据流扩散。例如,将恶意指令藏在客服工单中,工单同步至项目管理工具后,又被开发者的AI编码工具检索,最终攻陷内部代码库。

5. 目标行动:最终的恶意收割

这是攻击的最后一步,也是攻击者的终极目的。大模型的权限范围决定了其危害的广度:
* 数据泄露:窃取企业机密、用户隐私,甚至跨服务转移数据。
* 社会工程学攻击:模仿用户口吻撰写钓鱼邮件,利用内部通道发送恶意链接。
* 物理影响:操控智能办公设备(如开关门窗、照明),甚至影响工业控制系统。
* 财务损失:诱导金融大模型转移资金(已有案例造成10.5万美元损失),或让企业AI以超低价出售产品。
* 远程代码执行:操控具备代码解释器功能的大模型执行恶意代码,完全接管服务器。

真实案例:这些攻击已经发生

研究团队梳理了多个已公开的Promptware攻击案例,每一个都印证了上述杀伤链的可行性。

揭秘Promptware:大模型安全新威胁的“五步杀链”

面对体系化的Promptware攻击,传统防御手段已然失效。而论文提出的杀伤链框架,恰恰为企业提供了防御思路——针对每个阶段设置防线,层层拦截。以下是三个核心防御建议:

1. 放弃“一刀切”思维,实施针对性防御

  • 初始访问阶段:不仅过滤文本输入,还需防范多模态注入和间接注入,尤其要严格审查RAG检索的外部内容。
  • 权限提升阶段:定期测试模型的抗越狱能力,对代码执行、资金操作等高危场景设置独立的安全校验流程。
  • 持久化阶段:监控RAG数据库和模型长期记忆的变更,建立异常内容检测机制。
  • 横向移动阶段:遵循“最小权限原则”,限制大模型的跨系统访问权限,防止单点突破导致全线失守。
  • 目标行动阶段:对转账、批量数据导出等高危操作设置强制人工审核环节,禁止大模型独立执行。

2. 从架构层面弥补根本缺陷

针对大模型“无法区分指令和数据”的架构缺陷,企业可以:
* 在应用层建立“指令-数据”隔离机制,例如对系统指令进行特殊标记并确保其优先执行且不可被覆盖。
* 对RAG检索结果进行二次安全过滤,剔除可疑的指令性内容。
* 定期审计与清理模型的长期记忆,移除未授权的持久化内容。

3. 建立基于威胁建模的防护体系

利用Promptware杀伤链框架,系统性地梳理企业大模型的攻击面:
* 哪些功能可能成为攻击者的初始访问入口?
* 模型拥有哪些高权限操作需要重点限制?
* 企业内部数据流转路径中,哪些环节容易被利用进行横向移动?
* 最可能遭受哪些类型的目标行动攻击?

通过提前识别关键风险点,实现有的放矢的防御。

结语:大模型安全,早已不是“模型层面”的事

随着大模型从单纯的对话工具,演进为能够执行代码、操控设备、处理交易的多功能“智能体”,其安全边界也在急剧扩展。Promptware的出现,标志着针对大模型的攻击正式进入了“恶意软件时代”。

正如哈佛大学网络安全专家 Bruce Schneier 所言:“大模型的安全问题,本质上是生态系统的安全问题。” 这涉及模型架构、应用设计、权限管理、数据流转等多个环节,任何一个环节的漏洞都可能被攻击者利用。

对于企业而言,当前面临的已非“是否要防御”的疑问,而是“如何体系化防御”的挑战。Promptware 攻击链框架的价值,正在于将模糊的威胁具象化——当我们能够清晰洞察攻击的每一步,便能在每个环节构建起有效的防线。

毕竟,大模型的能力越强大,其安全的“护城河”就需要挖得越深。在这场持续的攻防博弈中,唯有先洞悉对手的套路,才能掌握真正的主动权。

  • IBM 最新研究曝光!网络安全小模型碾压 GPT-4o,CyberPal挑战闭源模型登顶
  • 勒索软件杀到3.0时代:LLM当全自动攻击指挥官,传统杀毒软件直接失灵
  • 2025AI合规“超级年”:15份法规标准织密安全网,企业落地必看指南
  • AI安全周刊【2026-01-12】
  • AI安全周刊【2026-01-05】
  • AI安全周刊【2025-12-29】
  • AI安全周刊【2025-12-22】
  • AI安全周刊【2025-12-15】
  • AI安全周刊【2025-12-08】
  • AI安全周刊【2025-12-01】
  • AI安全周刊【2025-11-24】
  • AI安全周刊【2025-11-17】
  • AI安全周刊【2025-11-10】
  • AI安全周刊【2025-11-03】
  • 【2025-10-27】AI安全周报
  • 【2025-10-20】AI安全周报
  • 【2025-10-13】AI安全周报
  • 【2025-10-06】AI安全周报
  • 【2025-09-26】AI安全周报
  • 【2025-09-19】AI安全周报
  • 【2025-09-12】AI安全周报
  • 【2025-09-05】AI安全周报

  • 【2025-08-29】AI安全周报

  • 【2025-08-22】AI安全周报
  • 【2025-08-15】AI安全周报
  • 【2025-08-08】AI安全周报
  • 【2025-08-01】AI安全周报
  • 【2025-07-25】AI安全周报
  • 【2025-07-18】AI安全周报

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19048

(0)
上一篇 2026年1月23日 下午4:51
下一篇 2026年1月23日 下午7:33

相关推荐

  • 360推出国内首个工业级AI漫剧智能体平台,实现90%成功率与1小时单集制作

    允中 发自 凹非寺 量子位 | 公众号 QbitAI 一个规模达200亿的市场,长期被“低效抽卡”的创作模式所困扰。 当前的AI漫剧行业,一面是年增速超过80%的蓬勃市场,另一面却是创作者为对齐一个分镜而通宵“炼丹”的艰辛。 360此次推出的解决方案,逻辑直接而高效:将剧本、资产生成到分镜合成的全流程整合进一条自动化流水线,将素材生成成功率一举提升至90%以…

    2026年1月30日
    13500
  • AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮

    12月1日 【开源】阶跃星辰开源GELab-Zero阶跃星辰开源了GELab-Zero,首次将GUI Agent模型与完整的配套基础设施同步开放,支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录,取得了SOTA成绩。此外,阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily,旨…

    2025年12月8日
    20600
  • OpenAI财务危机深度剖析:推理成本指数级增长与收入线性增长的致命剪刀差

    OpenAI作为人工智能领域的领军企业,其财务状况一直是行业关注的焦点。近期曝光的微软财报数据揭示了这家公司面临的严峻挑战:推理成本正以指数级速度增长,而收入仅呈现线性增长态势,两者形成的“成本-收入剪刀差”正在急剧扩大,这不仅是OpenAI的个体困境,更折射出整个大模型产业面临的系统性风险。 从微软公布的Azure服务模型推理成本数据来看,OpenAI的财…

    2025年11月29日
    14200
  • Nano Banana Pro深度解析:时空重构AI的突破与局限

    近期,Nano Banana Pro凭借其“时空重现”能力引发广泛关注。这款AI模型只需输入坐标和可选时间参数,就能生成对应时空的拟真影像,从技术角度看,这标志着多模态AI在时空理解与生成领域迈出了重要一步。 从技术架构分析,Nano Banana Pro的核心突破在于实现了从“推理”到“创造”的能力跃迁。早期版本已能通过图像反推拍摄坐标,展现出色的地理空间…

    2025年11月26日
    15100
  • PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

    你负责写方法,AI负责画 Figure。科研打工人,终于等来「画图解放日」。 还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗? 一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的「隐藏副本」不是实验,而是画图。 既要忠于论文原意,又得暗暗符合顶会那套心照不宣的「学术审美」:颜色不能土,布局不能乱,箭头更不能连错。 看起来只是一张图…

    2026年2月5日
    5300