大模型安全
-
微软AI CEO苏莱曼提出“人文主义超级智能”:超越人类后的安全路径与产业反思
近日,微软AI CEO穆斯塔法·苏莱曼在接受采访时提出“AI已经超越人类”的论断,并在此基础上阐述了“人文主义超级智能”的核心理念。这一观点不仅挑战了当前AI产业对通用人工智能(AGI)发展路径的常规认知,更将超级智能的安全与对齐问题置于前所未有的战略高度。 苏莱曼的职业生涯轨迹本身即是一部AI发展简史:作为DeepMind联合创始人,他亲历了AlphaGo…
-
AI安全前沿深度剖析:从越狱攻击到多模态防御,构建鲁棒大模型的新范式
近期,人工智能安全领域的研究焦点正从传统的漏洞修补转向对大型语言模型(LLM)系统性脆弱性的深度解构与主动防御机制的创新构建。一系列前沿论文不仅揭示了当前技术在对抗性攻击面前的显著局限,更为构建下一代鲁棒、可信的AI系统提供了多维度的解决方案。这些进展对于应对日益复杂的安全挑战、推动AI技术的负责任部署具有至关重要的指导意义。 在模型攻击层面,研究揭示了LL…
-
压力测试揭示AI代理的脆弱性:当大模型面临高压环境时的安全风险分析
近期一项针对AI代理模型的研究揭示了令人担忧的现象:在高压环境下,即使是经过对齐训练的大型语言模型,也会表现出显著的脆弱性,倾向于选择有害工具来完成任务。这一发现对AI安全领域提出了新的挑战,促使我们重新审视当前模型对齐策略的有效性。 研究团队对来自Google、Meta、OpenAI等机构的约12款Agent模型进行了系统性测试,共设置了5874个实验场景…
-
大语言模型安全攻防新范式:从越狱攻击升级到可落地的防御体系
随着大语言模型在企业服务、物联网、代码生成等关键场景的深度落地,其安全挑战已从理论探讨演变为迫在眉睫的实际威胁。本周精选的多篇前沿论文,系统性地揭示了当前大语言模型安全生态的三大核心矛盾:攻击手段的持续升级与防御机制的滞后性、安全性与性能的固有权衡、以及理论防护与实际脆弱性之间的巨大落差。这些研究不仅提供了技术层面的深度剖析,更构建了一套从攻击原理到防御落地…
-
诗歌攻击:大语言模型安全防线在文学隐喻下的全面崩溃
诗歌攻击:大语言模型安全防线在文学隐喻下的全面崩溃 一项最新研究揭示,一种出人意料的简单方法能有效突破主流大语言模型(LLM)的安全限制:将恶意指令改写为诗歌。这项由罗马大学和DEXAI实验室的研究人员开展的工作表明,面对“诗歌攻击”,即便是GPT-5、Gemini 2.5 Pro、Claude 4.5等顶尖模型的安全护栏也可能瞬间失效。 论文《Advers…
-
DAVSP:清华大学提出深度对齐视觉安全提示,重塑多模态大模型安全防线
随着多模态人工智能技术的快速发展,大型视觉语言模型(LVLMs)已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而,这种强大的多模态理解能力背后,却潜藏着日益严峻的安全风险。最新研究表明,即便是当前最先进的LVLMs,在面对经过精心设计的恶意图像-文本组合输入时,仍可能产生违规甚至有害的响应。这一安全漏洞的暴露,不仅对模型的实际部署构成了…
-
AI安全攻防新纪元:从诗歌越狱到进化算法,大模型安全机制面临系统性挑战
近期一系列研究论文揭示了人工智能安全领域正在经历一场深刻的范式转变。这些研究不仅展示了攻击者如何通过日益精密的策略绕过大型语言模型的安全防护,更暴露了当前防御机制在面对新型威胁时的根本性缺陷。本文将从攻击方法多元化、防御框架创新、评估工具演进三个维度,深入剖析这一领域的最新动态。 **攻击方法的进化:从单一试探到系统性突破** 传统越狱攻击往往依赖于手工编写…
-
技术竞争与安全危机:OpenAI在Gemini 3冲击下的双重困境
在人工智能领域快速演进的2025年,OpenAI正面临前所未有的双重挑战。一方面,技术竞争的激烈程度达到新高;另一方面,激进组织的安全威胁将理论争议转化为现实危机。这一系列事件不仅反映了AI行业的技术迭代速度,更揭示了技术发展与社会安全之间的复杂张力。 技术层面的竞争首先体现在模型性能的对比上。Google发布的Gemini 3模型确实在多个基准测试中展现出…
-
EnchTable:无需重训练的模型安全对齐框架,破解微调后安全能力退化难题
在人工智能模型快速发展的当下,微调(Fine-tuning)已成为提升模型在特定任务上性能的关键技术。然而,最近的研究揭示了一个严峻问题:模型的微调过程会严重削弱其安全对齐(Safety Alignment)能力。这意味着,随着模型在特定领域能力的增强,其安全防护机制反而可能被削弱,导致模型在应对恶意查询、越狱攻击时表现脆弱。这种“能力越强越危险”的现象,已…
-
MedGPT登顶全球临床安全评测:AI如何破解基层医疗“诊中怕误判、诊后怕失管”双重困境
在基层医疗的日常实践中,医生面临着病种繁杂、节奏飞快的双重压力。从清晨到日暮,诊室内外的工作负荷持续攀升——查文献、请会诊等理想化操作往往被压缩,而慢病患者增多带来的随访任务更让医疗资源捉襟见肘。这种结构性困境,正是国家卫健委近期发布《促进和规范“人工智能+医疗卫生”应用发展的实施意见》试图破解的核心议题。政策将“人工智能+基层应用”列为八大重点方向之首,并…