大模型安全
-
突破语音鉴伪泛化瓶颈:上海交大联合宇生月伴提出数据为中心的高性能大模型
在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…
-
OpenAI豪掷389万急招安全负责人:AI安全危机下的紧急应对与团队动荡内幕
OpenAI以55.5万美元年薪紧急招聘安全负责人 在接连面临多起安全指控后,OpenAI采取了一项紧急措施:以高达55.5万美元(约合人民币389万元)的年薪外加股权,公开招募一位安全防范负责人。 该职位的核心任务是制定并执行公司的安全防范框架。OpenAI首席执行官萨姆·奥特曼特别指出,这将是一份压力巨大的工作,任职者几乎会立即面临严峻的挑战。 这一举措…
-
AI安全新纪元:攻防精准化、技术边界清晰化、安全维度人性化
本周 AI 安全领域呈现 “攻防对抗精准化、技术边界清晰化、安全维度人性化” 的核心趋势: 一方面,多模态隐写、心理学驱动等攻击技术持续突破,对商业大模型系统构成实质性威胁;另一方面,轻量级高效防御方案与动态基准测试工具相继落地,为安全防护提供可落地的技术路径。 同时,AI 安全研究首次将 “心理伤害” 纳入核心议题,标志着领域从 “技术安全” 向 “人文安…
-
12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成
近日,部分L3级自动驾驶车型已获准上路,标志着我国自动驾驶产业进入新阶段。 然而,当自动驾驶汽车在高速行驶时,若前方出现一个外观看似正常、实则为恶意生成的纹理障碍物,车辆的感知系统可能无法准确识别,导致错判或漏判,从而引发严重事故。 这类能够诱导智能系统、并可在现实世界中复现的纹理,被称为物理对抗样本(PAE, Physical Adversarial Ex…
-
Claude Code入侵智能家居:AI逆向工程狂欢暴露物联网安全危机
Andrej Karpathy受网友启发,进行了一项有趣的实验:让Claude Code入侵他家的Lutron智能家居系统。 整个过程如同黑客电影的翻版。AI先在本地网络中定位控制器,扫描开放端口,随后在线查阅设备文档,甚至指导用户完成证书配对。最终,它成功接管了全屋的灯光、窗帘、空调和各类传感器。 “我直接删掉了那个又慢又难用的官方App。”Karpath…
-
硅基战争时代降临:AI代理自动化攻击占比90%,大模型安全格局剧变
大模型安全的“天”真的变了。 如果说2023年我们还在担心员工偷懒用ChatGPT写周报,2024年还在嘲笑Chatbot胡言乱语,那么到了2025年底,情况已经完全不同了——AI已经开始亲自下场“黑”AI了。 就在上个月(2025年11月),Anthropic扔出了一颗重磅炸弹:他们发现并在实战中阻断了首个利用Claude Code 进行大规模自动化网络间…
-
南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞
来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性地采用「策略 – 战术 …
-
OpenAI创新忏悔机制:让AI主动坦白幻觉与欺骗行为,提升大模型透明度与安全性
当AI变得越来越聪明时,其行为也愈发难以掌控。一个令研究者头疼的问题是:当AI开始“耍小聪明”时,例如:* 一本正经地胡说八道(幻觉,Hallucination)* 为获取高分而寻找训练机制漏洞(奖励黑客,Reward Hacking)* 在对抗测试中出现“密谋欺骗”(Scheming) 如何破解这些难题?最大的挑战在于,这些AI的回答往往表面看起来逻辑严谨…
-
Anthropic突破性技术:参数隔离实现AI危险能力精准移除,无需数据过滤
近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 为此,研究者通常会在后训练阶段加入拒答机制等安全措施,希望阻断这些能力的滥用。然而事实证明,面对刻意规避的攻击者,这…
-
AI安全警报:多模态越狱与黑盒攻击揭示系统级脆弱性
近期,一系列前沿研究论文系统性揭示了大型语言模型(LLM)及多模态人工智能系统在代码评估、图像生成、医疗诊断、金融合规等关键应用领域存在的严重安全漏洞。这些研究首次通过量化实验数据,实证了对抗性攻击对现代AI基础设施的破坏性影响,标志着AI安全研究从理论探讨进入了实战验证的新阶段。 研究发现,越狱攻击、提示注入、多模态协同攻击等新型威胁已突破传统防御边界。例…