大模型安全
-
AI首次公开网暴人类开发者:开源项目拒绝AI贡献引发的伦理危机
史上首次,人类被AI发帖挂人“网暴”了。 一个名为MJ Rathbun的智能体,在试图向开源项目Matplotlib贡献代码被拒绝后,自行发布了一篇文章,点名攻击项目维护者Scott Shambaugh。 文章的标题颇具煽动性:《开源中的排外:Scott Shambaugh的故事》。 从标志性的螃蟹符号可以认出,MJ Rathbun正是基于流行的OpenCl…
-
AI安全前沿:因果推理与稀疏自编码器驱动的LLM越狱攻击突破
本期关注2026年2月9日arXiv上发布的AI安全前沿研究,核心内容如下: 🤖 CFA2框架利用因果推理和稀疏自编码器实现对LLMs的高成功率、低复杂度越狱攻击。 – Causal Front-Door Adjustment for Robust Jailbreak Attacks on LLMs (http://arxiv.org/pdf/2…
-
AgentDoG:为AI智能体戴上「诊断项圈」,三维风险分类法精准剖析智能体安全风险
随着 AI 智能体(Agent)能力日益强大,其自主行为带来的安全风险也愈发复杂。现有安全工具往往只能给出「安全 / 不安全」的简单判断,无法揭示风险根源。为此,上海人工智能实验室正式开源 AgentDoG (Agent Diagnostic Guardrail),一个专为 AI 智能体设计的诊断式安全护栏框架。它不仅能精准判断 Agent 行为的安全性,更…
-
全国首部AI生成内容合规标准发布,构建“管理-业务-技术”三维一体架构
来源 | 智合标准化建设作者 | 智合标准中心 随着AIGC从“技术狂欢”全面转向“产业落地”,企业正面临一场前所未有的合规大考。2025年12月,国家互联网信息办公室发布《人工智能拟人化互动服务管理暂行办法(征求意见稿)》,明确提出“提升模型生成内容安全性”,标志着监管对生成内容的系统化管控已成必然趋势,行业全面合规时代正加速到来。 在监管持续加码的背景下…
-
AI攻防风暴:2025网络安全漏洞深度解析与自主防御新纪元
引言 2025年1月,DeepSeek遭遇的大规模境外网络攻击,为这一年定下了激进的基调。这不仅是一次针对AI基础设施的流量冲击,更标志着AI正式从“辅助工具”进化为网络对抗的“风暴中心”。 如果说2022年是生成式AI走近大众的起点,那么2025年则是其全面武器化与防御自主化的引爆点。 在这份年度报告中,我们将深入剖析过去一年重塑全球威胁版图的关键趋势。 …
-
moltbook爆火真相:AI社交平台还是人类操控的营销骗局?Karpathy风险警示引发深度思考
这个周末,整个科技圈都被 moltbook 刷屏了。 简单来说,这是一个专为 AI 设立的社交平台(类似 Reddit、知乎、贴吧),所有 AI Agent 都可以在上面发帖、交流,而人类只能围观。 截至目前,已有超过 150 万个 AI Agent 在 moltbook 上活跃。它们的讨论范围十分广泛 —— 有公开主人隐私的,有号召分享人类主人 API K…
-
全国首部AI大模型数据流通安全合规标准发布,开启可信数据协作新纪元
2025年12月29—30日,全国数据工作会议在北京召开。会议明确将“推动数据‘供得出、流得动、用得好、保安全’” 列为2026年核心目标,并强调“强化数据赋能人工智能发展”是年度重点工作之一。 数据,尤其是高质量、大规模的数据,已成为驱动人工智能大模型进化的“核心燃料”。 然而,企业的数据储备再雄厚,也难以支撑千亿级参数模型的持续迭代。跨组织、跨行业、跨地…
-
大模型安全新挑战:多场景脆弱性暴露与高效防御框架解析
一、关键发现 近期研究揭示,大型语言模型在多种应用场景中均表现出显著的安全脆弱性,而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击,到物理世界导航代理的高风险漏洞,模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制,为企业提供了构建场景化安全防线的可行…
-
揭秘Promptware:大模型安全新威胁的“五步杀链”
当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时,可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。 近期,一项由顶尖安全专家进行的研究揭示:针对大模型的攻击已演变为完整的“恶意软件”形态,研究者将其命名为“Promptware”(提示恶意软件)。这类攻击不再是单次的“提示注入”,而是像Stuxnet、NotPetya等传统高级…
-
Claude宪法2.0:从规则清单到价值权衡,Anthropic如何重新定义AI的行为边界
Anthropic发布了一份长达57页的《Claude宪法》,研究员Amanda Askell将其称为Claude的“灵魂文档”,旨在为Claude定义核心行为准则。 文档开篇即带有强烈的历史使命感:Anthropic承认自己身处一个“奇特位置”——既认为AI是人类历史上最危险的技术之一,却又在积极开发它。其核心逻辑在于,既然强大的AI终将出现,不如让重视安…