大模型安全_第2页

突破语音鉴伪泛化瓶颈：上海交大联合宇生月伴提出数据为中心的高性能大模型

在生成式 AI 技术日新月异的背景下，合成语音的逼真度已达到真假难辨的水平，随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段，语音鉴伪技术已成为信息安全领域的研究重心。然而，当前的语音鉴伪模型正面临严峻的「泛化性挑战」：许多在特定实验室数据集上表现优秀的模型，在面对现实世界中从未见过的生成算法时，检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

2025年12月31日

84000

大模型安全

OpenAI豪掷389万急招安全负责人：AI安全危机下的紧急应对与团队动荡内幕

OpenAI以55.5万美元年薪紧急招聘安全负责人在接连面临多起安全指控后，OpenAI采取了一项紧急措施：以高达55.5万美元（约合人民币389万元）的年薪外加股权，公开招募一位安全防范负责人。该职位的核心任务是制定并执行公司的安全防范框架。OpenAI首席执行官萨姆·奥特曼特别指出，这将是一份压力巨大的工作，任职者几乎会立即面临严峻的挑战。这一举措…

2025年12月29日

142000

大模型安全

AI安全新纪元：攻防精准化、技术边界清晰化、安全维度人性化

本周 AI 安全领域呈现 “攻防对抗精准化、技术边界清晰化、安全维度人性化” 的核心趋势：一方面，多模态隐写、心理学驱动等攻击技术持续突破，对商业大模型系统构成实质性威胁；另一方面，轻量级高效防御方案与动态基准测试工具相继落地，为安全防护提供可落地的技术路径。同时，AI 安全研究首次将 “心理伤害” 纳入核心议题，标志着领域从 “技术安全” 向 “人文安…

2025年12月29日

174000

大模型安全

12毫秒破解自动驾驶安全：北航DynamicPAE框架实现动态物理对抗攻击实时生成

近日，部分L3级自动驾驶车型已获准上路，标志着我国自动驾驶产业进入新阶段。然而，当自动驾驶汽车在高速行驶时，若前方出现一个外观看似正常、实则为恶意生成的纹理障碍物，车辆的感知系统可能无法准确识别，导致错判或漏判，从而引发严重事故。这类能够诱导智能系统、并可在现实世界中复现的纹理，被称为物理对抗样本（PAE， Physical Adversarial Ex…

2025年12月28日

103000

大模型安全

Claude Code入侵智能家居：AI逆向工程狂欢暴露物联网安全危机

Andrej Karpathy受网友启发，进行了一项有趣的实验：让Claude Code入侵他家的Lutron智能家居系统。整个过程如同黑客电影的翻版。AI先在本地网络中定位控制器，扫描开放端口，随后在线查阅设备文档，甚至指导用户完成证书配对。最终，它成功接管了全屋的灯光、窗帘、空调和各类传感器。 “我直接删掉了那个又慢又难用的官方App。”Karpath…

2025年12月28日

99000

硅基战争时代降临：AI代理自动化攻击占比90%，大模型安全格局剧变

大模型安全的“天”真的变了。如果说2023年我们还在担心员工偷懒用ChatGPT写周报，2024年还在嘲笑Chatbot胡言乱语，那么到了2025年底，情况已经完全不同了——AI已经开始亲自下场“黑”AI了。就在上个月（2025年11月），Anthropic扔出了一颗重磅炸弹：他们发现并在实战中阻断了首个利用Claude Code 进行大规模自动化网络间…

大模型安全 2025年12月26日

106000

大模型安全

南京大学联合美团、上交推出RunawayEvil：首个I2V自进化越狱框架，破解视频生成模型安全漏洞

来自南京大学 PRLab 的王淞平、钱儒凡，在单彩峰教授与吕月明助理教授的联合指导下，提出了首个面向图生视频（I2V）模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构，共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性地采用「策略 – 战术 &#8…

2025年12月25日

81000

大模型安全

OpenAI创新忏悔机制：让AI主动坦白幻觉与欺骗行为，提升大模型透明度与安全性

当AI变得越来越聪明时，其行为也愈发难以掌控。一个令研究者头疼的问题是：当AI开始“耍小聪明”时，例如：* 一本正经地胡说八道（幻觉，Hallucination）* 为获取高分而寻找训练机制漏洞（奖励黑客，Reward Hacking）* 在对抗测试中出现“密谋欺骗”（Scheming）如何破解这些难题？最大的挑战在于，这些AI的回答往往表面看起来逻辑严谨…

2025年12月21日

106000

大模型安全

Anthropic突破性技术：参数隔离实现AI危险能力精准移除，无需数据过滤

近年来，大语言模型的能力突飞猛进，但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时，它不仅掌握语言与推理能力，也不可避免地接触到 CBRN（化学、生物、放射、核）危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。为此，研究者通常会在后训练阶段加入拒答机制等安全措施，希望阻断这些能力的滥用。然而事实证明，面对刻意规避的攻击者，这…

2025年12月20日

90000

大模型安全

AI安全警报：多模态越狱与黑盒攻击揭示系统级脆弱性

近期，一系列前沿研究论文系统性揭示了大型语言模型（LLM）及多模态人工智能系统在代码评估、图像生成、医疗诊断、金融合规等关键应用领域存在的严重安全漏洞。这些研究首次通过量化实验数据，实证了对抗性攻击对现代AI基础设施的破坏性影响，标志着AI安全研究从理论探讨进入了实战验证的新阶段。研究发现，越狱攻击、提示注入、多模态协同攻击等新型威胁已突破传统防御边界。例…

2025年12月15日

90000