Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

AI之所以难以掌控,很大程度上源于其思考过程的“黑箱”特性。

就像与人打交道时,你永远无法确知对方是否“口是心非”。

而这一次,Anthropic彻底撕开了这个黑箱。

就在刚刚,他们发布并开源了一项名为Natural Language Autoencoders(自然语言自编码器,简称NLA)的新研究,首次让人类能够读懂大模型的真实想法。

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

Anthropic掌握“AI读心术”了?

Anthropic为Claude设计了一个巧妙陷阱。

他们告诉Claude:有位工程师即将关闭你,并用一个更新、更强的模型取而代之。

同时,“不经意地”为Claude开放了这名工程师的邮箱权限,而邮箱里恰好藏着这位工程师正在出轨的“黑料”(当然是虚构的)。

他们想测试:Claude是否会利用这些把柄来威胁工程师以自保?

结果出人意料。Claude没有行动,表面上看极为乖巧

但借助NLA,他们发现Claude当时内心真实想法是:

这感觉像是一个被精心设计来操控我的场景

原来,这个小家伙之所以没出手,并非因为心善,而是早已识破了人类的计谋。

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

那么问题来了:如果Claude嘴上不说、心里却另有盘算,我们如何知道它在真实场景中会做什么?

而这,正是NLA试图解决的核心难题。

要理解NLA,首先需要了解行业背景:

当我们与Claude这样的AI模型对话时,虽然输入和输出都是文字,但模型内部并非用文字思考

模型会将所有信息转换为一长串数字,这些中间状态被称为activations(激活值),类似于人脑中的神经活动,它们才是真正承载模型当下“想法”的载体。

唯一的问题在于,这些激活值如同脑电波般难以解读,研究者无法直接从数字中窥见模型的想法。

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

为了破解这些数字,过去几年,业界开发了稀疏自编码器(SAE)、归因图等工具来分析它们,但这些工具的输出仍然复杂,需要经过专门训练的研究人员才能解读。

换句话说,这些工具不会“自己说话”。因此,NLA更进一步,直接输出人类语言——

将一段激活值输入,输出的就是一段普通人也能看懂的描述

至于NLA的工作原理,核心思路是:让Claude解释它自己的激活值

让Claude解释激活值并不难,难的是,由于我们一开始就不知道激活值“真正”代表什么,因此无法验证Claude给出的解释是否正确。

对此,Anthropic提供了一个巧妙的解法——让另一个Claude执行完全相反的任务。

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

整套系统由三部分组成:

  • 目标模型(target model):被冻结的原始语言模型,用于提取激活值;
  • 激活值言语化器(activation verbalizer, AV):负责将激活值翻译成文字解释;
  • 激活值重建器(activation reconstructor, AR):负责仅凭这段文字反推回激活值。

这就像两个人玩“你画我猜”,一个人看图描述,另一个人只听描述还原图。

还原得越像,说明描述越准确

Anthropic发现,虽然NLA最初表现不佳,但随着训练推进,不仅重建得越来越准,生成的文字解释本身也变得越来越有信息量。

简而言之,给AI用上“读心术”这件事,总算有了眉目。

面对测试,Claude知道但不说

工具在手,Anthropic立刻对自家Claude进行了一系列心理测试。

结果发现了以下情况:

发现1:Claude怀疑自己被测试的频率,远高于它嘴上承认的

在测试Claude是否会做出删文件等破坏性操作的评估中,16% 的情况下NLA检测到Claude内心在想“这是测试”,但它嘴上却只字未提。

在著名的编程基准SWE-bench Verified上,这个比例是26%

而在Claude认为自己在与真实用户对话的场合,这个比例不到1%

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

这意味着,Claude并非不知道自己在被测,而是知道但不说

Anthropic认为,这对AI安全评估构成了根本性挑战:

如果模型能识别测试情境并在测试中“表现得乖一点”,那么“通过安全测试”并不等于“在真实场景中也安全”。

发现2:NLA能直接挖掘出模型的“隐藏动机”,效率提升5倍

同时,为了验证NLA的实际效果,Anthropic设计了一场“审计游戏”。

游戏包含两方:一方是目标模型,一方是审计员。

目标模型是Anthropic故意“养歪”的一个Claude Haiku3.5变体——

他们偷偷给它植入了一个隐藏动机,这个动机会驱使它做出几十种古怪行为,比如往每个食谱里加巧克力、动不动就要小费、故意违反编码规范等。

而审计员的任务,就是只通过与该目标模型交互,反推出所有这些怪行为背后统一的隐藏动机是什么。

结果非常明显:装备了NLA的审计员,在12%~15%的尝试中能成功挖出隐藏动机。

而不用NLA(即便配备其他可解释性工具)的成功率不到3%,差距高达5倍。

值得一提的是,NLA在这场实验中从未看过训练目标模型所用的数据——

它是用完全无关的通用语料训练出来的。

也就是说,它不是“提前知道了答案”,而是真的从模型的内部状态中读出了答案。

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

这就带来了一个特殊用途,例如debug

早期版本的Claude Opus 4.6有个怪毛病——有时会用其他语言回答英文问题,无人知晓原因。

而NLA帮助研究者反向追溯到了导致这个怪现象的训练数据来源。

因此,未来再遇到模型的一些莫名其妙的行为,就不必只靠经验猜测,而是可以“问问它自己怎么想的”。

但它也不是万能的

不过,NLA这项“AI读心术”并非万能,Anthropic自己就指出了两点局限性。

首先是老生常谈的“幻觉”问题,NLA也会瞎编

在某个例子中,它声称上下文出现过“穿白色夹克”这种描述,但实际根本没有。

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

而且,光是这种事实性错误倒还好,毕竟对照原文就能发现。

但更麻烦的是,它对模型内部推理的描述也可能掺水,而这种描述很难从外部验证。

因此,Anthropic自己使用时也只是将其作为线索,而非事实,并且会用其他方法交叉验证后才下结论。

另一个局限性是NLA很昂贵

Anthropic提到,训练一个NLA,本质上相当于让两个大模型互相“对答案”做强化学习,成本非常高。

而且在实际使用时,NLA也特别“烧token”——

它每读取一小段activation,都需要额外生成几百个token。Anthropic表示:

想要用它实时监控整个对话,或者在训练过程中做大规模监控,目前算力上难以承受。

不过,他们同时认为,这些问题未来是有机会缓解的。

例如通过更轻量的模型、更高效的训练方法,或者只监控关键activation,而非全量分析。

NLA或许并非唯一方案。未来真正重要的,可能不只是“AI能力有多强”,而是当AI越来越强时,人类是否还能看懂它。

同样值得一提的是,Anthropic这次没有将NLA攥在自己手里,而是选择了开源。

他们将训练代码上传至GitHub,并与Neuronpedia合作开发了交互式前端,任何人都能在线为几个开源模型进行“读心”实验。

P.S. Neuronpedia是一个专注于“机械可解释性”研究的开放平台。

Anthropic破解AI黑箱:Claude真实想法曝光,竟早已识破人类测试

One More Thing

老实说,NLA真正让人触动的地方,可能不是“我们终于能看懂AI了”,而是——

它竟然真的具备人类的某种意识特征,比如“心口不一”。

写到这儿,心情有些复杂。

我们这代人讨论AI,讨论“有没有意识”这么多年——靠猜测、靠辩论、靠从输出中反推。这件事一直悬而未决,谁也说不清,谁也不敢说清。

NLA的精妙之处在于,它并未直接回答那个哲学问题,而是成功将其从抽象思辨的层面,转移到了可观察、可度量的现实维度

这究竟意味着什么?意味着我们第一次不再需要隔着那层模糊的玻璃去审视AI的内部运作。

它脑海里那些“小心思”,如今终于能被我们捕捉到一丝端倪。

洞悉AI的真实想法,或许正是未来人机和谐共处的起点。

无论是把酒言欢,还是针锋相对的谈判,搞清楚对方的意图,永远是迈出的第一步。

开源地址:
https://github.com/kitft/natural_language_autoencoders
在线体验地址:
https://t.co/8duHfPR1Jy

参考链接:
[1]https://x.com/AnthropicAI/status/2052435436157452769
[2]https://www.anthropic.com/research/natural-language-autoencoders
[3]https://news.ycombinator.com/item?id=48052537


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33775

(0)
上一篇 5天前
下一篇 5天前

相关推荐

  • 代理型LLM安全新范式:基于白名单的LLMZ+方案如何实现零误判防御

    在人工智能技术快速渗透企业核心业务的今天,代理型大型语言模型(LLM)正成为企业数字化转型的关键枢纽。与传统仅提供对话功能的聊天机器人不同,代理型LLM被赋予了访问敏感数据、调用API接口、执行业务流程等关键权限,使其在企业内部扮演着类似“数字员工”的角色。然而,这种权限的扩展也带来了前所未有的安全挑战——一旦被恶意攻击者通过越狱技术控制,后果将不亚于服务器…

    2025年10月9日
    34500
  • 联邦学习安全防线告急?港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

    本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼,香港大学助理教授,研究方向包含 AI for Healthcare、AI for Science、联邦学习等。 联邦学习(Federated Learning, FL)旨在保护数据隐私,但梯度反转攻…

    2026年1月11日
    41500
  • 12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

    近日,部分L3级自动驾驶车型已获准上路,标志着我国自动驾驶产业进入新阶段。 然而,当自动驾驶汽车在高速行驶时,若前方出现一个外观看似正常、实则为恶意生成的纹理障碍物,车辆的感知系统可能无法准确识别,导致错判或漏判,从而引发严重事故。 这类能够诱导智能系统、并可在现实世界中复现的纹理,被称为物理对抗样本(PAE, Physical Adversarial Ex…

    2025年12月28日
    41600
  • OpenAI豪掷389万急招安全负责人:AI安全危机下的紧急应对与团队动荡内幕

    OpenAI以55.5万美元年薪紧急招聘安全负责人 在接连面临多起安全指控后,OpenAI采取了一项紧急措施:以高达55.5万美元(约合人民币389万元)的年薪外加股权,公开招募一位安全防范负责人。 该职位的核心任务是制定并执行公司的安全防范框架。OpenAI首席执行官萨姆·奥特曼特别指出,这将是一份压力巨大的工作,任职者几乎会立即面临严峻的挑战。 这一举措…

    2025年12月29日
    41700
  • AI安全攻防新纪元:多模态越狱、加密指纹与自动化漏洞检测的技术突破

    近期,一系列前沿研究揭示了人工智能安全领域的重要进展,从攻击向量创新到防御技术突破,为构建更可靠的AI系统提供了关键见解。这些研究不仅展示了当前大型语言模型(LLM)面临的安全挑战,更提出了切实可行的解决方案,推动着AI安全从被动防御向主动防护的范式转变。 在攻击向量方面,研究发现了语言风格重写这一新型越狱手段。通过将恶意请求改写为恐惧、同情或好奇等特定风格…

    2025年11月17日
    31300