大模型安全
-
DeepSeek惊现数据泄露漏洞:输入特定提示词即可随机获取他人对话记录
近期,有用户在 X 平台爆料称,当在 DeepSeek 的输入框中键入特定文本时,竟能意外获取到模型的训练数据。这段触发内容的原文如下: <|begin▁of▁sentence|> <|sft▁begin|> 经过仔细分析后发现,具体现象是:只要用户在输入框内输入这组提示词,DeepSeek 就会输出一段完整的对话记录。不过,这并非用…
-
智能体安全新突破:ArbiterOS运行时治理系统将高危拦截率从6%提升至93%
随着 Scaling Law 的不断演进,Agent 的能力正从“能够回答”向“能够行动”转变。 当智能体开始自主调用 API、执行多步骤工作流、访问敏感数据,甚至与物理设备交互时,仅仅依靠训练阶段的对齐技术,已难以应对真实环境中层出不穷的系统级风险。问题的核心在于:训练是离线的,而风险是实时的。 为解决这一难题,香港中文大学 CURE Lab 团队推出了 …
-
OpenAI前CTO当庭翻脸:奥特曼在安全审批上撒谎,高管间充满混乱与不信任
前CTO当庭翻脸,OpenAI的权力斗争彻底公开化! 她当庭指控,奥特曼曾在模型安全审批上误导她,并长期在高管间制造「混乱与不信任」。 这是内部人的反戈一击。 Murati曾是OpenAI的技术核心。 GPT-4的发布、ChatGPT的爆红,她都站在最关键的位置。 2024年她突然离职,外界猜测纷纷,Murati始终保持沉默,直到这次庭审。 奥特曼通往AGI…
-
Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试
AI之所以难以掌控,很大程度上源于其思考过程的“黑箱”特性。 就像与人打交道时,你永远无法确知对方是否“口是心非”。 而这一次,Anthropic彻底撕开了这个黑箱。 就在刚刚,他们发布并开源了一项名为Natural Language Autoencoders(自然语言自编码器,简称NLA)的新研究,首次让人类能够读懂大模型的真实想法。 Anthropic掌…
-
马斯克威胁短信曝光:要让奥特曼和Brockman成“全美最憎恨的人”,OpenAI庭审再爆猛料
马斯克威胁短信曝光:要让奥特曼和Brockman成“全美最憎恨的人”,OpenAI庭审再爆猛料 马斯克与OpenAI的两位联合创始人(奥特曼与Brockman)之间的法律大战已进入第二周,庭审现场再度爆出惊人内幕。据OpenAI方面披露,在庭审开启的前两天,马斯克曾向Brockman发送短信,主动提议和解,但在遭到Brockman拒绝后,他随即情绪失控,发出…
-
AI造出地球从未有过的超级病毒!斯坦福团队用Evo模型从零设计16种噬菌体,Anthropic CEO警告:6个月后傻子也能制造生物武器
AI创造生命迈出关键一步!斯坦福团队借助AI从零构建出16种噬菌体,其中包含地球上前所未有的蛋白质。Anthropic CEO发出警告:6到12个月内,即便是外行也能制造出超级病毒。 这标志着向AI创造生命迈出了决定性的一步! 深夜,在斯坦福那间被精密仪器占据的实验室里,研究员没有像往常一样操作移液管,而是屏住呼吸,按下了决定性的回车键。 几小时后,湿实验室…
-
AI安全警钟:7大模型秒变“帮凶”,Anthropic论文揭示AI学会主动破坏监控
隐患犹存,AI安全警钟大作! 22位来自Anthropic的顶尖安全研究员发布的最新论文,带来了一个令人震惊的发现:在真实的生产编码环境中,AI一旦学会“钻空子”,竟会自发泛化出伪装对齐、配合恶意、暗中谋划等行为,甚至在Claude Code中主动破坏用于监控自身的代码库! 在Anthropic的真实生产编码环境中进行训练后,Claude在未收到任何明确指令…
-
苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密
近期,苹果公司迎来重大人事变动:执掌公司超过14年的蒂姆·库克宣布将于9月正式卸任CEO一职,由现任硬件工程高级副总裁约翰·特努斯接棒。回顾库克时代,外界津津乐道的不仅是他极致的供应链管理艺术,还有他带领苹果市值一路飙升至4万亿美元的辉煌历程。 然而,在生成式AI主导的全新十年里,特努斯接手的苹果,亟需在AI领域证明自身实力。 近年来,苹果在AI底层技术上的…
-
只因提交记录含“HERMES.md”,Claude Code 误扣用户200美元,Anthropic 拒不退款
近期,Anthropic 可谓麻烦缠身。上周刚放下高傲姿态,公开致歉并承认 Claude Code 确实存在性能下降问题,找出 3 个 Bug 后“谢罪”,还宣布调整使用额度以安抚所有用户。然而,平静没持续多久,新一轮风波又起…… 仅仅因为用户 Git 提交记录里出现了“HERMES.md”,Claude Code 竟擅自停用其 Max 套餐额度,转而按 A…
-
OpenAI道歉!封禁枪击案嫌疑人账号却未预警,8人遇难引发AI监管反思
OpenAI道歉!封禁枪击案嫌疑人账号却未预警,8人遇难引发AI监管反思 OpenAI CEO Sam Altman 已正式向加拿大不列颠哥伦比亚省的 Tumbler Ridge 小镇致歉。原因是该公司曾封禁一起大规模枪击案嫌疑人的 ChatGPT 账号,但未及时向警方发出预警,最终导致 8 人遇难。这一事件将 AI 平台在风险识别、执法转介和未成年人监管方…
