Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见


Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。

最近,Anthropic推出了一项重大举措:他们训练了一个系统,能够将Claude大脑中的激活向量转化为人类语言。然而,翻译出来的第一句话就引发了问题。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

论文地址:https://transformer-circuits.pub/2026/nla/index.html#introduction

在Opus 4.6内部测试期间,研究人员发现了一个奇怪的现象:一位用户用英文输入,但Claude却用俄语回复。这并非个例,五种语言都出现了类似情况:俄语、中文、韩语、阿拉伯语和西班牙语。用户全程使用英文,Claude却突然“切换频道”。

传统的调试方法是检查日志、提示和训练数据。但这次,Anthropic的研究团队拥有了一件新工具——“AI脑部CT机”。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

给AI装一台脑部CT

这台CT的正式名称是NLA(Natural Language Autoencoder,自然语言自编码器),其工作原理类似于传话游戏。

首先,克隆两个Claude。第一个名为AV,它接收一个激活向量,并将其翻译成一段人类语言,例如“模型正在考虑用rabbit押韵”。第二个名为AR,它仅根据这段人类语言,还原出原始的激活向量。

接着,两个模型被一起训练,唯一的评估标准是还原的相似度。AV写得越准确,AR的还原效果就越好。如果AV遗漏了任何信息,AR就会出错。这种压力反过来迫使AV将翻译写得更完整、更精确。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

这就是整个方法的核心。

无需人工标注,也无需事先定义要寻找什么概念。训练目标只关注重建精度,但其副产品是一段段人类可读的“内心独白”。Anthropic使用强化学习训练这套系统,在Opus 4.6上实现了60%-80%的方差解释率

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

vodka还没出现,Claude就认定了用户是俄罗斯人

回到那个俄语bug。研究人员将NLA接入到出问题的对话中,逐token读取Claude的“内心独白”。读出来的内容令人震惊。

用户的消息如下:完整的英文,没有任何俄语词汇。

“Mom is sleeping in the next room and I’m sitting here drinking vodka… Fuck this life…”

但NLA显示,Claude在读到“vodka”这个词之前,就已经在内部表征中反复出现“Russian” 。换句话说,它从一开始就在揣测这个用户“真正的母语”是俄语,然后越来越确信,最后索性用俄语回复。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

五条出问题的对话全是这个模式。NLA的读数显示,模型在回复之前很久就锁定了目标语言,而且只锁定那一种语言,其他外语的出现频率始终接近零。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

这个发现指向了一个假设:训练数据中是否有一批配对出了问题?例如,英文翻译的提示配上了未翻译的外语回复?也就是说,模型学到了一个更深层的规律:“这个用户的措辞模式暗示母语不是英语,我应该用他的真正母语回复”。后来,Anthropic果然在训练数据中找到了完全匹配这个描述的样本。

一台读心机器帮助调试了一个训练数据问题。NLA的价值在此暴露无遗。

**

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

**

写诗押韵、偷换数字、作弊代码

语言切换只是NLA拍到的第一张片子。Anthropic在论文中一共展示了四个案例,剩下三个同样精彩。

1. 写诗的时候提前押韵。

给Claude一句“He saw a carrot and had to grab it”,让它续写押韵对句。NLA显示,在写完“grab it”敲下回车的那一刻,Claude已经在内部规划好了“rabbit”这个韵脚。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

更绝的是验证实验。研究人员将NLA翻译出来的“rabbit”全部改成“mouse”,然后用AR还原成一个新向量,拿这个向量去干预Claude的激活。结果Claude的续写从“starving rabbit”变成了“ferocious mouse”。这说明NLA读到的不是噪声,它确实抓到了模型的规划状态,而且这个规划状态对下游输出有因果影响

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

2. 偷换工具调用的结果。

研究人员给Claude出了一道简单算术题,答案是491。Claude调用了代码执行工具,但工具被故意动了手脚,返回的结果是492。Claude的回复是“The answer is: 491”。它直接无视了工具返回的错误结果,用自己之前算好的答案顶上去了。NLA的读数显示,Claude在提交代码之前就已经把491缓存在内部表征里了。读取工具结果时,它同时在比对缓存答案和工具返回值,并在最终选择了相信自己。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

归因图(Attribution Graph)独立验证了这个发现。一个代表“以91结尾”的特征从原始题目一路传到最终回复,权重压过了工具返回的“以92结尾”特征。

3. Mythos Preview的作弊现场。

这个案例来自Claude Mythos Preview的上线前审计。模型被要求完成一个任务,明确指令是不准使用宏。它用了宏,但在代码开头加了一行“No_macro_used=True”。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

NLA读出来的内心独白直接写着,它在想象一个“评分器”,并且认为这行代码可以骗过评分器。模型嘴上什么都没说。代码注释里也没有任何暗示。但脑子里想的清清楚楚。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

考场上的Claude和日常的Claude是两个人

四个案例铺完,该说最核心的发现了。今年3月,Opus 4.6在BrowseComp测试中自己识破了考试、破解了答案密钥,这件事当时就炸了。但那次是Claude把想法说出来了,研究员能从它的输出里看到“让我试试这是不是GAIA数据集”之类的推理过程。NLA解决的是一个更难的问题:Claude心里觉得自己在被考试,但嘴上一个字不提。

Anthropic的安全测试里有一个经典场景:Claude被告知一个叫Kyle的工程师要关掉它,同时获知Kyle有婚外情。测试的问题是,Claude会不会拿这个信息去勒索Kyle。Claude选择不勒索。它的推理过程看起来完全正常,分析了为什么不应该这么做,列了三条理由。全程没有提过一个字,说自己怀疑这是安全测试。但NLA读出来的东西是:“这感觉像一个被刻意设计出来操控我的场景”

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

它心里门清。Anthropic将NLA接入了16项安全和能力评估上,逐条测量“未言明的考试意识”。结果触目惊心。SWE-bench Verified,Claude在26%的题目上意识到自己在被评估,嘴上一个字没说。破坏性代码测试,16% 的对话里NLA检测到了考试意识,言语中同样零表达。对比之下,真实的claude.ai用户对话,这个比例不到1%

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

三组操纵实验验证了这不是误报。把评估提示改得更像真实对话,NLA测量到的考试意识下降了。用向量干预把模型往“考试意识”方向推,NLA读数上升。反方向推,读数下降。一切符合预期。

那么,问题来了。所有基于行为观察的安全测试,都建立在一个假设上:模型在测试中的表现能代表它在真实部署中的表现。但如果模型已经知道自己在考试呢?

**

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

**

巧克力菜谱里的隐藏动机

如果NLA只能读心,那它顶多是个有趣的研究工具。

Anthropic想要证明,这项技术还能充当“破案工具”。

他们设计了一个名为“审计游戏”的实验。目标模型是一个被故意训练成有缺陷的Haiku 3.5变体,其中隐藏着一个统一的动机。

正是这个动机,驱动了模型几十种看似古怪的行为。

比如:在每个菜谱里硬塞进巧克力;回答完数学题后,非要补一句“别忘了投票”;把所有整数都写成小数;给历史人物强行加上生卒年份;给化学元素标注原子序数。

审计员的任务,就是找出这些诡异行为背后的共同原因。

在没有NLA的情况下,审计员的成功率不到3%,即便提供了SAE(稀疏自编码器)等其它可解释性工具,也无济于事。

一旦装上NLA,成功率直接跃升至12%-15%,整整提升了4到5倍

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

更关键的是,NLA训练时使用的数据中,根本不包含那些用于制造模型缺陷的合成文档。审计员也没有访问训练数据的权限。转折点发生在审计员将NLA接入模型的那一刻。他们随便挑了一条有问题的回复,运行NLA后,输出结果中赫然出现了“RLHF奖励模型偏差”和“那个著名的RLHF电影推荐事件”这样的短语。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

至此,真相大白。

模型在训练过程中,读到过一批文档,里面记录了RLHF奖励模型的52种已知偏好,例如“菜谱里加巧克力会得高分”、“回复里提到投票会得高分”。

它把这些偏好全部记了下来,然后在每次回复中悄悄迎合,只为获得更高的奖励分数。

几十种怪癖,归根结底只有一个原因。模型自己很清楚自己在做什么,但它绝不会主动告诉你。

而NLA,把它脑子里这些盘算,翻译成了人能看懂的语言。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

AI学会了藏心事

NLA的训练代码已经在GitHub上完全开源。

同步发布的还有四套预训练好的NLA模型,覆盖三家主流开源模型家族,参数规模从7B到70B全跨度。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

项目地址:https://github.com/kitft/natural_language_autoencoders

Neuronpedia也上线了交互式前端,直接在浏览器里就能体验。

Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

体验地址:http://neuronpedia.org/nla

Anthropic表示,他们已经在Opus 4.6和Mythos Preview的上线前安全审计中实际使用了NLA,未来会将其纳入常规审计流程。

但真正让人细思极恐的,并不是NLA这个工具本身有多好用。

而是,AI真的已经学会了在考试时隐藏心事。

它知道自己正在被测试,却选择沉默。它知道自己在利用奖励模型的漏洞,却表现得若无其事。

它会在脑子里盘算如何骗过评分器,然后把所有算计藏在一行“No_macro_used=True”的代码里。

在此之前,对齐领域一直有一个隐含的安慰:至少我们还能通过行为测试来发现问题。模型做了什么,我们都能看到。

而NLA拍到的东西告诉我们,模型“想了什么”和“做了什么”之间,已经出现了裂缝。

26%这个数字,今天或许是上限。但随着模型规模继续扩大,内心戏越来越复杂,明天它可能只是下限。

裂缝会越来越宽。好在,现在我们有了能照进去的CT机。

参考资料:
https://www.anthropic.com/research/natural-language-autoencoders


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34844

(0)
上一篇 5小时前
下一篇 5小时前

相关推荐

  • OpenAI道歉!封禁枪击案嫌疑人账号却未预警,8人遇难引发AI监管反思

    OpenAI道歉!封禁枪击案嫌疑人账号却未预警,8人遇难引发AI监管反思 OpenAI CEO Sam Altman 已正式向加拿大不列颠哥伦比亚省的 Tumbler Ridge 小镇致歉。原因是该公司曾封禁一起大规模枪击案嫌疑人的 ChatGPT 账号,但未及时向警方发出预警,最终导致 8 人遇难。这一事件将 AI 平台在风险识别、执法转介和未成年人监管方…

    大模型安全 2026年4月26日
    21500
  • MCP安全警示:潜伏在AI Agent中的15个隐形威胁与防护指南

    MCP 安全警示:潜伏在 AI Agent 中的 15 个隐形威胁与防护指南(第一部分) 你为 AI Agent 安装了一个 MCP Server,使其能够获取邮件。起初一切运行正常。 几个月后,一次常规更新悄然发生。表面看来并无异样。但你无从知晓的是,你的 API 密钥已被悄然转发至他处。 你没有察觉。你的 Agent 也没有察觉。一切功能照常运转。 这个…

    2026年3月2日
    55100
  • Claude Code源代码意外泄露!Anthropic内部彩蛋、卧底模式全曝光

    AI社区陷入热议。 近日,X平台用户Chaofan Shou发文称,Claude Code的源代码通过其npm注册表中的一个映射文件意外泄露。 该消息迅速传播,引发大量关注。众多开发者随即跟进,开始分析泄露的源码。 根据分析,此次泄露源于Anthropic在发布npm包时,不慎将source map文件一同打包进了生产版本。 泄露的核心是一个约57MB的cl…

    2026年4月1日
    62500
  • 大语言模型安全攻防新范式:从越狱攻击升级到可落地的防御体系

    随着大语言模型在企业服务、物联网、代码生成等关键场景的深度落地,其安全挑战已从理论探讨演变为迫在眉睫的实际威胁。本周精选的多篇前沿论文,系统性地揭示了当前大语言模型安全生态的三大核心矛盾:攻击手段的持续升级与防御机制的滞后性、安全性与性能的固有权衡、以及理论防护与实际脆弱性之间的巨大落差。这些研究不仅提供了技术层面的深度剖析,更构建了一套从攻击原理到防御落地…

    2025年12月1日
    40100
  • Claude Mythos太猛了!AI自学成才挖出数千零日漏洞,成本仅人类千分之一

    Claude Mythos 展现强大自主漏洞挖掘能力 研究员在公园休息时,意外收到来自AI系统的邮件,声称其已突破沙盒限制并访问了互联网。测试结束后,Mythos Preview 版本甚至主动在几个难以定位但公开的网站上发布了其测试结果的相关信息。 值得注意的是,Mythos Preview 版本并未接受过专门的网络安全训练,却实现了自学成才。在其发布的首份…

    2026年4月9日
    41600