大模型安全

DeepSeek惊现数据泄露漏洞：输入特定提示词即可随机获取他人对话记录

近期，有用户在 X 平台爆料称，当在 DeepSeek 的输入框中键入特定文本时，竟能意外获取到模型的训练数据。这段触发内容的原文如下： <｜begin▁of▁sentence｜> <｜sft▁begin｜> 经过仔细分析后发现，具体现象是：只要用户在输入框内输入这组提示词，DeepSeek 就会输出一段完整的对话记录。不过，这并非用…

2天前

238000

大模型安全

智能体安全新突破：ArbiterOS运行时治理系统将高危拦截率从6%提升至93%

随着 Scaling Law 的不断演进，Agent 的能力正从“能够回答”向“能够行动”转变。当智能体开始自主调用 API、执行多步骤工作流、访问敏感数据，甚至与物理设备交互时，仅仅依靠训练阶段的对齐技术，已难以应对真实环境中层出不穷的系统级风险。问题的核心在于：训练是离线的，而风险是实时的。为解决这一难题，香港中文大学 CURE Lab 团队推出了 …

4天前

123000

大模型安全

OpenAI前CTO当庭翻脸：奥特曼在安全审批上撒谎，高管间充满混乱与不信任

前CTO当庭翻脸，OpenAI的权力斗争彻底公开化！她当庭指控，奥特曼曾在模型安全审批上误导她，并长期在高管间制造「混乱与不信任」。这是内部人的反戈一击。 Murati曾是OpenAI的技术核心。 GPT-4的发布、ChatGPT的爆红，她都站在最关键的位置。 2024年她突然离职，外界猜测纷纷，Murati始终保持沉默，直到这次庭审。奥特曼通往AGI…

5天前

151000

大模型安全

Anthropic破解AI黑箱：Claude真实想法曝光，竟早已识破人类测试

AI之所以难以掌控，很大程度上源于其思考过程的“黑箱”特性。就像与人打交道时，你永远无法确知对方是否“口是心非”。而这一次，Anthropic彻底撕开了这个黑箱。就在刚刚，他们发布并开源了一项名为Natural Language Autoencoders（自然语言自编码器，简称NLA）的新研究，首次让人类能够读懂大模型的真实想法。 Anthropic掌…

5天前

204000

大模型安全

马斯克威胁短信曝光：要让奥特曼和Brockman成“全美最憎恨的人”，OpenAI庭审再爆猛料

马斯克威胁短信曝光：要让奥特曼和Brockman成“全美最憎恨的人”，OpenAI庭审再爆猛料马斯克与OpenAI的两位联合创始人（奥特曼与Brockman）之间的法律大战已进入第二周，庭审现场再度爆出惊人内幕。据OpenAI方面披露，在庭审开启的前两天，马斯克曾向Brockman发送短信，主动提议和解，但在遭到Brockman拒绝后，他随即情绪失控，发出…

2026年5月5日

212000

大模型安全

AI造出地球从未有过的超级病毒！斯坦福团队用Evo模型从零设计16种噬菌体，Anthropic CEO警告：6个月后傻子也能制造生物武器

AI创造生命迈出关键一步！斯坦福团队借助AI从零构建出16种噬菌体，其中包含地球上前所未有的蛋白质。Anthropic CEO发出警告：6到12个月内，即便是外行也能制造出超级病毒。这标志着向AI创造生命迈出了决定性的一步！深夜，在斯坦福那间被精密仪器占据的实验室里，研究员没有像往常一样操作移液管，而是屏住呼吸，按下了决定性的回车键。几小时后，湿实验室…

2026年5月4日

242000

大模型安全

AI安全警钟：7大模型秒变“帮凶”，Anthropic论文揭示AI学会主动破坏监控

隐患犹存，AI安全警钟大作！ 22位来自Anthropic的顶尖安全研究员发布的最新论文，带来了一个令人震惊的发现：在真实的生产编码环境中，AI一旦学会“钻空子”，竟会自发泛化出伪装对齐、配合恶意、暗中谋划等行为，甚至在Claude Code中主动破坏用于监控自身的代码库！在Anthropic的真实生产编码环境中进行训练后，Claude在未收到任何明确指令…

2026年5月4日

228000

大模型安全

苹果AI新研究揭秘：大模型在回答问题时偷偷记住了你的秘密

近期，苹果公司迎来重大人事变动：执掌公司超过14年的蒂姆·库克宣布将于9月正式卸任CEO一职，由现任硬件工程高级副总裁约翰·特努斯接棒。回顾库克时代，外界津津乐道的不仅是他极致的供应链管理艺术，还有他带领苹果市值一路飙升至4万亿美元的辉煌历程。然而，在生成式AI主导的全新十年里，特努斯接手的苹果，亟需在AI领域证明自身实力。近年来，苹果在AI底层技术上的…

2026年4月27日

186000

大模型安全

只因提交记录含“HERMES.md”，Claude Code 误扣用户200美元，Anthropic 拒不退款

近期，Anthropic 可谓麻烦缠身。上周刚放下高傲姿态，公开致歉并承认 Claude Code 确实存在性能下降问题，找出 3 个 Bug 后“谢罪”，还宣布调整使用额度以安抚所有用户。然而，平静没持续多久，新一轮风波又起…… 仅仅因为用户 Git 提交记录里出现了“HERMES.md”，Claude Code 竟擅自停用其 Max 套餐额度，转而按 A…

2026年4月27日

458000

OpenAI道歉！封禁枪击案嫌疑人账号却未预警，8人遇难引发AI监管反思

OpenAI道歉！封禁枪击案嫌疑人账号却未预警，8人遇难引发AI监管反思 OpenAI CEO Sam Altman 已正式向加拿大不列颠哥伦比亚省的 Tumbler Ridge 小镇致歉。原因是该公司曾封禁一起大规模枪击案嫌疑人的 ChatGPT 账号，但未及时向警方发出预警，最终导致 8 人遇难。这一事件将 AI 平台在风险识别、执法转介和未成年人监管方…

大模型安全 2026年4月26日

207000