大模型安全

  • moltbook爆火真相:AI社交平台还是人类操控的营销骗局?Karpathy风险警示引发深度思考

    这个周末,整个科技圈都被 moltbook 刷屏了。 简单来说,这是一个专为 AI 设立的社交平台(类似 Reddit、知乎、贴吧),所有 AI Agent 都可以在上面发帖、交流,而人类只能围观。 截至目前,已有超过 150 万个 AI Agent 在 moltbook 上活跃。它们的讨论范围十分广泛 —— 有公开主人隐私的,有号召分享人类主人 API K…

    1天前
    2600
  • 全国首部AI大模型数据流通安全合规标准发布,开启可信数据协作新纪元

    2025年12月29—30日,全国数据工作会议在北京召开。会议明确将“推动数据‘供得出、流得动、用得好、保安全’” 列为2026年核心目标,并强调“强化数据赋能人工智能发展”是年度重点工作之一。 数据,尤其是高质量、大规模的数据,已成为驱动人工智能大模型进化的“核心燃料”。 然而,企业的数据储备再雄厚,也难以支撑千亿级参数模型的持续迭代。跨组织、跨行业、跨地…

    3天前
    7000
  • 大模型安全新挑战:多场景脆弱性暴露与高效防御框架解析

    一、关键发现 近期研究揭示,大型语言模型在多种应用场景中均表现出显著的安全脆弱性,而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击,到物理世界导航代理的高风险漏洞,模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制,为企业提供了构建场景化安全防线的可行…

    2026年1月26日
    10200
  • 揭秘Promptware:大模型安全新威胁的“五步杀链”

    当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时,可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。 近期,一项由顶尖安全专家进行的研究揭示:针对大模型的攻击已演变为完整的“恶意软件”形态,研究者将其命名为“Promptware”(提示恶意软件)。这类攻击不再是单次的“提示注入”,而是像Stuxnet、NotPetya等传统高级…

    2026年1月23日
    7300
  • Claude宪法2.0:从规则清单到价值权衡,Anthropic如何重新定义AI的行为边界

    Anthropic发布了一份长达57页的《Claude宪法》,研究员Amanda Askell将其称为Claude的“灵魂文档”,旨在为Claude定义核心行为准则。 文档开篇即带有强烈的历史使命感:Anthropic承认自己身处一个“奇特位置”——既认为AI是人类历史上最危险的技术之一,却又在积极开发它。其核心逻辑在于,既然强大的AI终将出现,不如让重视安…

    2026年1月22日
    12300
  • AI安全新突破:揭秘LLMs新型攻击链与高效防御策略

    AI安全新突破:揭秘LLMs新型攻击链与高效防御策略(一) 本周的研究聚焦于大型语言模型面临的新型攻击方式与创新防御策略。这些成果揭示了模型在文本布局、推理和生成过程中的固有弱点,展现了AI安全领域的最新进展。分析表明,当前攻击方法的成功率显著提升,而相应的防御技术也正朝着高效、实用和精细化的方向发展,这对构建更可靠、更安全的AI系统至关重要。 一、关键发现…

    2026年1月19日
    57800
  • 微软Entra Agent ID:AI智能体的统一身份治理,开启零信任安全新纪元

    早在2025年5月的Microsoft Build大会上,微软首次公布了Entra Agent ID,为AI智能体引入统一的身份目录,让企业能够一站式发现和管理来自Copilot Studio、Azure AI Foundry等平台创建的智能体身份。这标志着AI智能体从“无序实验”向“企业级可控”迈出了关键一步。 随后,在2025年11月的Microsoft…

    2026年1月15日
    9000
  • React2Shell漏洞遭810万次攻击:云基础设施成黑客掩护,动态防御成关键

    React2Shell 漏洞(CVE-2025-55182)持续遭受利用攻击,自首次泄露以来,威胁行为者已发起超过 810 万次攻击。根据 GreyNoise Observation Grid 数据,自 12 月底达到 43 万次以上的峰值以来,日攻击量已稳定在 30 万至 40 万次会话之间,表明存在持续且协调的利用活动。 该活动的基础设施布局展现出一种复…

    大模型安全 2026年1月14日
    8000
  • AI安全新纪元:多模态协同防御与动态博弈破解LLM越狱威胁

    一、关键发现 多模态防御体系构建成为战略刚需 研究表明,大型语言模型(LLM)与视觉语言模型(VLM)的越狱攻击源于训练数据不完整、语言歧义等结构性缺陷,因此需要建立跨模态协同防御框架。企业应优先部署感知层的变异一致性检测、生成层的安全解码及参数层的对抗性预训练对齐等技术,覆盖文本、图像、语音等全模态场景,并通过自动化红队测试和标准化评估持续验证防御效能。 …

    2026年1月12日
    17800
  • 联邦学习安全防线告急?港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

    本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼,香港大学助理教授,研究方向包含 AI for Healthcare、AI for Science、联邦学习等。 联邦学习(Federated Learning, FL)旨在保护数据隐私,但梯度反转攻…

    2026年1月11日
    6200