大模型安全

大语言模型安全攻防新范式：从越狱攻击升级到可落地的防御体系

随着大语言模型在企业服务、物联网、代码生成等关键场景的深度落地，其安全挑战已从理论探讨演变为迫在眉睫的实际威胁。本周精选的多篇前沿论文，系统性地揭示了当前大语言模型安全生态的三大核心矛盾：攻击手段的持续升级与防御机制的滞后性、安全性与性能的固有权衡、以及理论防护与实际脆弱性之间的巨大落差。这些研究不仅提供了技术层面的深度剖析，更构建了一套从攻击原理到防御落地…

2025年12月1日

162000

大模型安全

诗歌攻击：大语言模型安全防线在文学隐喻下的全面崩溃

诗歌攻击：大语言模型安全防线在文学隐喻下的全面崩溃一项最新研究揭示，一种出人意料的简单方法能有效突破主流大语言模型（LLM）的安全限制：将恶意指令改写为诗歌。这项由罗马大学和DEXAI实验室的研究人员开展的工作表明，面对“诗歌攻击”，即便是GPT-5、Gemini 2.5 Pro、Claude 4.5等顶尖模型的安全护栏也可能瞬间失效。论文《Advers…

2025年11月25日

175000

大模型安全

DAVSP：清华大学提出深度对齐视觉安全提示，重塑多模态大模型安全防线

随着多模态人工智能技术的快速发展，大型视觉语言模型（LVLMs）已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而，这种强大的多模态理解能力背后，却潜藏着日益严峻的安全风险。最新研究表明，即便是当前最先进的LVLMs，在面对经过精心设计的恶意图像-文本组合输入时，仍可能产生违规甚至有害的响应。这一安全漏洞的暴露，不仅对模型的实际部署构成了…

2025年11月24日

179000

大模型安全

AI安全攻防新纪元：从诗歌越狱到进化算法，大模型安全机制面临系统性挑战

近期一系列研究论文揭示了人工智能安全领域正在经历一场深刻的范式转变。这些研究不仅展示了攻击者如何通过日益精密的策略绕过大型语言模型的安全防护，更暴露了当前防御机制在面对新型威胁时的根本性缺陷。本文将从攻击方法多元化、防御框架创新、评估工具演进三个维度，深入剖析这一领域的最新动态。 **攻击方法的进化：从单一试探到系统性突破** 传统越狱攻击往往依赖于手工编写…

2025年11月24日

215000

大模型安全

技术竞争与安全危机：OpenAI在Gemini 3冲击下的双重困境

在人工智能领域快速演进的2025年，OpenAI正面临前所未有的双重挑战。一方面，技术竞争的激烈程度达到新高；另一方面，激进组织的安全威胁将理论争议转化为现实危机。这一系列事件不仅反映了AI行业的技术迭代速度，更揭示了技术发展与社会安全之间的复杂张力。技术层面的竞争首先体现在模型性能的对比上。Google发布的Gemini 3模型确实在多个基准测试中展现出…

2025年11月23日

165000

大模型安全

EnchTable：无需重训练的模型安全对齐框架，破解微调后安全能力退化难题

在人工智能模型快速发展的当下，微调（Fine-tuning）已成为提升模型在特定任务上性能的关键技术。然而，最近的研究揭示了一个严峻问题：模型的微调过程会严重削弱其安全对齐（Safety Alignment）能力。这意味着，随着模型在特定领域能力的增强，其安全防护机制反而可能被削弱，导致模型在应对恶意查询、越狱攻击时表现脆弱。这种“能力越强越危险”的现象，已…

2025年11月19日

169000

大模型安全

MedGPT登顶全球临床安全评测：AI如何破解基层医疗“诊中怕误判、诊后怕失管”双重困境

在基层医疗的日常实践中，医生面临着病种繁杂、节奏飞快的双重压力。从清晨到日暮，诊室内外的工作负荷持续攀升——查文献、请会诊等理想化操作往往被压缩，而慢病患者增多带来的随访任务更让医疗资源捉襟见肘。这种结构性困境，正是国家卫健委近期发布《促进和规范“人工智能+医疗卫生”应用发展的实施意见》试图破解的核心议题。政策将“人工智能+基层应用”列为八大重点方向之首，并…

2025年11月17日

183000

大模型安全

医疗AI的临床革命：从技术炫技到基层赋能，中国专业模型如何实现安全与有效的双重突破

在医疗资源分布不均、基层诊疗压力巨大的现实背景下，人工智能技术正从实验室走向临床一线，开启一场深刻的医疗变革。根据最新统计，中国糖尿病患者已达2.33亿人，远超现有医疗资源的承载能力。基层医生每天面对的是混杂的真实世界：心血管、呼吸、消化等各种疾病交织出现；一旦遇上少见症状或复杂共病，往往会感到吃力，甚至陷入“想得不全、顾得不够”的困境。这种结构性矛盾，为医…

2025年11月17日

155000

大模型安全

Heretic工具深度解析：突破语言模型安全限制的技术革命与伦理挑战

在人工智能快速发展的今天，语言模型的安全对齐机制已成为行业标准配置。然而，这种旨在防止生成有害内容的安全机制，在实际应用中却引发了新的争议。许多开发者发现，当前主流商业模型如GPT-5等，在涉及特定话题时表现出过度保守的倾向，频繁触发安全拒绝机制，这在研究、创作等正当场景中造成了显著障碍。从小说创作需要描述必要的情节冲突，到网络安全研究需要分析潜在漏洞；从…

2025年11月17日

203000

大模型安全

AI安全攻防新纪元：多模态越狱、加密指纹与自动化漏洞检测的技术突破

近期，一系列前沿研究揭示了人工智能安全领域的重要进展，从攻击向量创新到防御技术突破，为构建更可靠的AI系统提供了关键见解。这些研究不仅展示了当前大型语言模型（LLM）面临的安全挑战，更提出了切实可行的解决方案，推动着AI安全从被动防御向主动防护的范式转变。在攻击向量方面，研究发现了语言风格重写这一新型越狱手段。通过将恶意请求改写为恐惧、同情或好奇等特定风格…

2025年11月17日

158000