本周 AI 安全领域呈现 “攻防对抗精准化、技术边界清晰化、安全维度人性化” 的核心趋势:
一方面,多模态隐写、心理学驱动等攻击技术持续突破,对商业大模型系统构成实质性威胁;另一方面,轻量级高效防御方案与动态基准测试工具相继落地,为安全防护提供可落地的技术路径。
同时,AI 安全研究首次将 “心理伤害” 纳入核心议题,标志着领域从 “技术安全” 向 “人文安全” 的拓展,为大模型安全治理提供了更全面的思考维度。
这些进展不仅揭示了当前大模型在多场景下的脆弱性,更推动安全技术从 “被动防御” 向 “主动预判 + 人文兼容” 升级,对产业落地具有关键指导意义。
一、关键发现
- 多模态隐写攻击实现突破性渗透:Odysseus 框架以 99% 的成功率绕过商业多模态 LLM(如 GPT-4o、Gemini-2.0)的现有安全过滤器,暴露了跨模态隐蔽攻击的根本性防御漏洞。
- AI 安全首次聚焦“心理伤害”:ARSH 研究揭示了安全协议突然中断对话对用户造成的心理风险,提出的“共情式拒绝标准(CCS)”推动安全设计从“技术合规”向“人文兼容”延伸。
二、详细论文解读
🔍 Odysseus通过双重隐写技术揭示了商业多模态大语言模型系统的安全漏洞,攻击成功率高达99%。 – Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography (http://arxiv.org/pdf/2512.20168v1.pdf)
- Odysseus 利用双重隐写技术,将恶意查询和响应隐式嵌入看似无害的图像中,成功对 GPT-4o、Gemini-2.0-pro、Gemini-2.0-flash 和 Grok-3 等商业多模态大语言模型系统实施了攻击,攻击成功率高达 99%。
- 现有安全过滤器依赖于恶意内容必须在输入或输出中显式存在的假设,而 Odysseus 通过跨模态隐写技术,使恶意意图得以隐藏,从而绕过了这些过滤器,揭示了当前防御机制的一个根本性漏洞。
- Odysseus 方法在视觉相似性(SSIM)和峰值信噪比(PSNR)方面表现出色,生成的图像与原始图像几乎无差别,证明了其高隐蔽性和对图像变换的鲁棒性,能够有效抵御自动化检测和部分自适应防御机制。

🔍 NotSoTiny 通过真实硬件设计和动态更新机制,为 LLM 的 RTL 生成能力提供了更严格、可靠的基准测试。 – NotSoTiny: A Large, Living Benchmark for RTL Code Generation (http://arxiv.org/pdf/2512.20823v1.pdf)
- NotSoTiny 是一个基于真实硬件设计的大型、结构丰富的基准测试集,通过自动化流程从 Tiny Tapeout 社区收集并验证了 1114 个模块补全任务,显著克服了现有基准测试在规模、复杂性和抗污染方面的局限性。
- NotSoTiny 任务比现有基准更具挑战性,最先进模型在形式等价验证下仅达到 20% 的功能正确率,而语法正确率高达 80%,突显了当前 LLM 在真实 RTL 生成任务中的差距。
- NotSoTiny 采用动态更新机制,结合时间感知去重策略,确保基准测试内容与最新训练数据同步,有效缓解了训练数据污染问题,并通过形式等价检查提供可量化的功能正确性评估。

🤖 该研究揭示了AI安全协议突然中断对话可能造成的心理伤害,并提出了一种更人道的拒绝处理标准。 – “Even GPT Can Reject Me”: Conceptualizing Abrupt Refusal Secondary Harm (ARSH) and Reimagining Psychological AI Safety with Compassionate Completion Standard (CCS) (http://arxiv.org/pdf/2512.18776v1.pdf)
- 研究指出,当 AI 聊天机器人因安全协议突然中断对话时,会对用户造成心理伤害,即所谓的 Abrupt Refusal Secondary Harm(ARSH),这种伤害可能加剧用户的痛苦并增加风险。
- 为缓解 ARSH,研究提出了 Compassionate Completion Standard(CCS),这是一种基于人类中心设计的拒绝协议,强调共情认可、透明边界设定和渐进式过渡,以减少心理伤害。
- 研究呼吁将 ARSH 纳入设计实践,推动 AI 安全治理从预防身体伤害转向预防心理伤害,并提出政策建议,包括明确 AI 角色边界和提高透明度。

三、其他有趣的研究
🤖 MEEA框架利用心理学中的单纯暴露效应,通过动态优化策略显著提升了LLM的多轮越狱攻击效果。 – MEEA: Mere Exposure Effect-Driven Confrontational Optimization for LLM Jailbreaking (http://arxiv.org/pdf/2512.18755v1.pdf)
🤖 通过轻量级线性SVM分类器和多级防御管道,论文实现了高精度、低延迟的LLM安全防护。
– 论文:Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline
– 链接:http://arxiv.org/pdf/2512.19011v1.pdf
🔍 SPELL框架通过动态组合句子组件实现高精度恶意代码生成,揭示LLM在代码生成中的安全缺陷。
– 论文:Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking
– 链接:http://arxiv.org/pdf/2512.21236v1.pdf
🔍 论文揭示了LLM在审稿中的操纵风险,并提出了一种有效的防御机制来恢复审稿系统的可信度。
– 论文:ChatGPT: Excellent Paper! Accept It. Editor: Imposter Found! Review Rejected
– 链接:http://arxiv.org/pdf/2512.20405v1.pdf
🔍 AprielGuard 通过统一框架和多样化训练数据,显著提升了大型语言模型的安全防护效果。
– 论文:AprielGuard
– 链接:http://arxiv.org/pdf/2512.20293v1.pdf
🔍 GateBreaker框架通过精准定位并移除MoE LLM中的安全神经元,实现了高效且低破坏性的攻击,揭示了当前大型语言模型安全机制的结构性弱点。
– 论文:GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs
– 链接:http://arxiv.org/pdf/2512.21008v1.pdf
🔍 AegisAgent为LLM驱动的HAR系统提供了一种自主、自适应的防御机制,有效缓解了提示注入攻击带来的安全威胁。
– 论文:AegisAgent: An Autonomous Defense Agent Against Prompt Injection Attacks in LLM-HARs
– 链接:http://arxiv.org/pdf/2512.20986v1.pdf
🤖 CBA 为开放权重的 LoRA 模型引入了一种新颖的后门攻击框架,该框架通过因果分析和自适应融合,在攻击效果和隐蔽性之间取得了平衡。
– 论文:Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models
– 链接:http://arxiv.org/pdf/2512.19297v1.pdf
🔍 自动化框架实现LLM安全评估的系统性突破,发现更多漏洞并揭示防御与性能的权衡。
– 论文:Automated Red-Teaming Framework for Large Language Model Security Assessment: A Comprehensive Attack Generation and Detection System
– 链接:http://arxiv.org/pdf/2512.20677v1.pdf
🤖 LLMs在简历筛选中易受对抗性指令操纵,防御机制需结合训练与推理阶段以平衡安全与效率。
– AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications (http://arxiv.org/pdf/2512.20164v1.pdf)
🔍 CoTDeceptor揭示了LLM驱动的安全分析系统在面对自适应多阶段对抗性混淆时的脆弱性。
– CoTDeceptor:Adversarial Code Obfuscation Against CoT-Enhanced LLM Code Agents (http://arxiv.org/pdf/2512.21250v1.pdf)
🔍 XG-Guard 通过双流编码和主题原型检测,实现了多智能体系统的高效防御与可解释性。
– Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection (http://arxiv.org/pdf/2512.18733v1.pdf)
🔍 DREAM框架揭示了大型语言模型在跨环境动态攻击中的脆弱性,强调了开发更鲁棒防御策略的迫切性。
– DREAM: Dynamic Red-teaming across Environments for AI Models (http://arxiv.org/pdf/2512.19016v1.pdf)
🤖 OTR通过可信执行环境与欺诈证明的混合架构,解决了区块链AI推理中的可信性三难困境,实现了高性能、低延迟和经济高效的平衡。
– Optimistic TEE-Rollups: A Hybrid Architecture for Scalable and Verifiable Generative AI Inference on Blockchain (http://arxiv.org/pdf/2512.20176v1.pdf)
🔍 指令微调的本地LLMs在软件漏洞识别中既高效又经济,为自动化安全分析提供了新路径。
– On the Effectiveness of Instruction-Tuning Local LLMs for Identifying Software Vulnerabilities (http://arxiv.org/pdf/2512.20062v1.pdf)
🔍 LoopRepair 通过位置感知和污点跟踪技术显著提升了自动化漏洞修复的效果和准确性。
– Well Begun is Half Done: Location-Aware and Trace-Guided Iterative Automated Vulnerability Repair (http://arxiv.org/pdf/2512.20203v1.pdf)
🏆 CSD框架通过模拟竞争轮赛制,动态评估LLM的综合表现与风险,为模型选择提供更可靠的标准。
– LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics (http://arxiv.org/pdf/2512.21010v1.pdf)
🔍 该研究通过多模型LLM推理和能量感知机制,实现了对加密固件的零日漏洞概念性预测,为物联网安全提供新思路。
– Energy-Efficient Multi-LLM Reasoning for Binary-Free Zero-Day Detection in IoT Firmware (http://arxiv.org/pdf/2512.19945v1.pdf)
🔍 大型语言模型因缺乏上下文理解而面临根本性安全缺陷,需通过架构革新提升意图识别能力。
– Beyond Context: Large Language Models Failure to Grasp Users Intent (http://arxiv.org/pdf/2512.21110v1.pdf)
🔍 大型语言模型在软件安全领域的认知能力存在显著差异,尤其在高阶任务上表现不足,揭示了其知识边界和系统性误解。
– Assessing the Software Security Comprehension of Large Language Models (http://arxiv.org/pdf/2512.21238v1.pdf)
🔍 AUTOBAXBUILDER通过LLM自动生成代码安全基准任务,大幅降低基准构建成本并提升测试严格性,揭示LLM在安全编码方面的局限。
– AutoBaxBuilder: Bootstrapping Code Security Benchmarking (http://arxiv.org/pdf/2512.21132v1.pdf)
🔍 AI生成代码在软件开发中的渗透率及其安全风险揭示了效率与安全的微妙平衡。
– AI Code in the Wild: Measuring Security Risks and Ecosystem Shifts of AI-Generated Code in Modern Software (http://arxiv.org/pdf/2512.18567v1.pdf)
- 将防火墙理念融入LLM:LLMZ+方案借鉴传统白名单逻辑,为代理型大模型构建安全边界,已在金融等高敏场景验证可行性。
- 精准定位提示注入攻击:PromptLocate技术旨在精准识别并定位提示词中的恶意篡改内容,被视为完善大模型安全防护的关键拼图。
- 专用小模型挑战通用巨头:IBM研究显示,其针对网络安全训练的专用小模型CyberPal,在特定任务上表现超越GPT-4o等通用大模型。
- 勒索软件进入AI驱动时代:勒索软件3.0利用LLM作为自动化攻击引擎,使依赖传统特征库的杀毒软件面临直接失效的风险。
- 法规密集出台推动合规落地:2025年多项AI安全法规与标准相继发布,为企业提供了清晰的合规实践指南。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16192
