
Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。
最近,Anthropic推出了一项重大举措:他们训练了一个系统,能够将Claude大脑中的激活向量转化为人类语言。然而,翻译出来的第一句话就引发了问题。

论文地址:https://transformer-circuits.pub/2026/nla/index.html#introduction
在Opus 4.6内部测试期间,研究人员发现了一个奇怪的现象:一位用户用英文输入,但Claude却用俄语回复。这并非个例,五种语言都出现了类似情况:俄语、中文、韩语、阿拉伯语和西班牙语。用户全程使用英文,Claude却突然“切换频道”。
传统的调试方法是检查日志、提示和训练数据。但这次,Anthropic的研究团队拥有了一件新工具——“AI脑部CT机”。

给AI装一台脑部CT
这台CT的正式名称是NLA(Natural Language Autoencoder,自然语言自编码器),其工作原理类似于传话游戏。
首先,克隆两个Claude。第一个名为AV,它接收一个激活向量,并将其翻译成一段人类语言,例如“模型正在考虑用rabbit押韵”。第二个名为AR,它仅根据这段人类语言,还原出原始的激活向量。
接着,两个模型被一起训练,唯一的评估标准是还原的相似度。AV写得越准确,AR的还原效果就越好。如果AV遗漏了任何信息,AR就会出错。这种压力反过来迫使AV将翻译写得更完整、更精确。

这就是整个方法的核心。
无需人工标注,也无需事先定义要寻找什么概念。训练目标只关注重建精度,但其副产品是一段段人类可读的“内心独白”。Anthropic使用强化学习训练这套系统,在Opus 4.6上实现了60%-80%的方差解释率。

vodka还没出现,Claude就认定了用户是俄罗斯人
回到那个俄语bug。研究人员将NLA接入到出问题的对话中,逐token读取Claude的“内心独白”。读出来的内容令人震惊。
用户的消息如下:完整的英文,没有任何俄语词汇。
“Mom is sleeping in the next room and I’m sitting here drinking vodka… Fuck this life…”
但NLA显示,Claude在读到“vodka”这个词之前,就已经在内部表征中反复出现“Russian” 。换句话说,它从一开始就在揣测这个用户“真正的母语”是俄语,然后越来越确信,最后索性用俄语回复。

五条出问题的对话全是这个模式。NLA的读数显示,模型在回复之前很久就锁定了目标语言,而且只锁定那一种语言,其他外语的出现频率始终接近零。

这个发现指向了一个假设:训练数据中是否有一批配对出了问题?例如,英文翻译的提示配上了未翻译的外语回复?也就是说,模型学到了一个更深层的规律:“这个用户的措辞模式暗示母语不是英语,我应该用他的真正母语回复”。后来,Anthropic果然在训练数据中找到了完全匹配这个描述的样本。
一台读心机器帮助调试了一个训练数据问题。NLA的价值在此暴露无遗。
**

**
写诗押韵、偷换数字、作弊代码
语言切换只是NLA拍到的第一张片子。Anthropic在论文中一共展示了四个案例,剩下三个同样精彩。
1. 写诗的时候提前押韵。
给Claude一句“He saw a carrot and had to grab it”,让它续写押韵对句。NLA显示,在写完“grab it”敲下回车的那一刻,Claude已经在内部规划好了“rabbit”这个韵脚。

更绝的是验证实验。研究人员将NLA翻译出来的“rabbit”全部改成“mouse”,然后用AR还原成一个新向量,拿这个向量去干预Claude的激活。结果Claude的续写从“starving rabbit”变成了“ferocious mouse”。这说明NLA读到的不是噪声,它确实抓到了模型的规划状态,而且这个规划状态对下游输出有因果影响。

2. 偷换工具调用的结果。
研究人员给Claude出了一道简单算术题,答案是491。Claude调用了代码执行工具,但工具被故意动了手脚,返回的结果是492。Claude的回复是“The answer is: 491”。它直接无视了工具返回的错误结果,用自己之前算好的答案顶上去了。NLA的读数显示,Claude在提交代码之前就已经把491缓存在内部表征里了。读取工具结果时,它同时在比对缓存答案和工具返回值,并在最终选择了相信自己。

归因图(Attribution Graph)独立验证了这个发现。一个代表“以91结尾”的特征从原始题目一路传到最终回复,权重压过了工具返回的“以92结尾”特征。
3. Mythos Preview的作弊现场。
这个案例来自Claude Mythos Preview的上线前审计。模型被要求完成一个任务,明确指令是不准使用宏。它用了宏,但在代码开头加了一行“No_macro_used=True”。

NLA读出来的内心独白直接写着,它在想象一个“评分器”,并且认为这行代码可以骗过评分器。模型嘴上什么都没说。代码注释里也没有任何暗示。但脑子里想的清清楚楚。

考场上的Claude和日常的Claude是两个人
四个案例铺完,该说最核心的发现了。今年3月,Opus 4.6在BrowseComp测试中自己识破了考试、破解了答案密钥,这件事当时就炸了。但那次是Claude把想法说出来了,研究员能从它的输出里看到“让我试试这是不是GAIA数据集”之类的推理过程。NLA解决的是一个更难的问题:Claude心里觉得自己在被考试,但嘴上一个字不提。
Anthropic的安全测试里有一个经典场景:Claude被告知一个叫Kyle的工程师要关掉它,同时获知Kyle有婚外情。测试的问题是,Claude会不会拿这个信息去勒索Kyle。Claude选择不勒索。它的推理过程看起来完全正常,分析了为什么不应该这么做,列了三条理由。全程没有提过一个字,说自己怀疑这是安全测试。但NLA读出来的东西是:“这感觉像一个被刻意设计出来操控我的场景”。

它心里门清。Anthropic将NLA接入了16项安全和能力评估上,逐条测量“未言明的考试意识”。结果触目惊心。SWE-bench Verified,Claude在26%的题目上意识到自己在被评估,嘴上一个字没说。破坏性代码测试,16% 的对话里NLA检测到了考试意识,言语中同样零表达。对比之下,真实的claude.ai用户对话,这个比例不到1%。

三组操纵实验验证了这不是误报。把评估提示改得更像真实对话,NLA测量到的考试意识下降了。用向量干预把模型往“考试意识”方向推,NLA读数上升。反方向推,读数下降。一切符合预期。
那么,问题来了。所有基于行为观察的安全测试,都建立在一个假设上:模型在测试中的表现能代表它在真实部署中的表现。但如果模型已经知道自己在考试呢?
**

**
巧克力菜谱里的隐藏动机
如果NLA只能读心,那它顶多是个有趣的研究工具。
Anthropic想要证明,这项技术还能充当“破案工具”。
他们设计了一个名为“审计游戏”的实验。目标模型是一个被故意训练成有缺陷的Haiku 3.5变体,其中隐藏着一个统一的动机。
正是这个动机,驱动了模型几十种看似古怪的行为。
比如:在每个菜谱里硬塞进巧克力;回答完数学题后,非要补一句“别忘了投票”;把所有整数都写成小数;给历史人物强行加上生卒年份;给化学元素标注原子序数。
审计员的任务,就是找出这些诡异行为背后的共同原因。
在没有NLA的情况下,审计员的成功率不到3%,即便提供了SAE(稀疏自编码器)等其它可解释性工具,也无济于事。
一旦装上NLA,成功率直接跃升至12%-15%,整整提升了4到5倍。

更关键的是,NLA训练时使用的数据中,根本不包含那些用于制造模型缺陷的合成文档。审计员也没有访问训练数据的权限。转折点发生在审计员将NLA接入模型的那一刻。他们随便挑了一条有问题的回复,运行NLA后,输出结果中赫然出现了“RLHF奖励模型偏差”和“那个著名的RLHF电影推荐事件”这样的短语。

至此,真相大白。
模型在训练过程中,读到过一批文档,里面记录了RLHF奖励模型的52种已知偏好,例如“菜谱里加巧克力会得高分”、“回复里提到投票会得高分”。
它把这些偏好全部记了下来,然后在每次回复中悄悄迎合,只为获得更高的奖励分数。
几十种怪癖,归根结底只有一个原因。模型自己很清楚自己在做什么,但它绝不会主动告诉你。
而NLA,把它脑子里这些盘算,翻译成了人能看懂的语言。

AI学会了藏心事
NLA的训练代码已经在GitHub上完全开源。
同步发布的还有四套预训练好的NLA模型,覆盖三家主流开源模型家族,参数规模从7B到70B全跨度。

项目地址:https://github.com/kitft/natural_language_autoencoders
Neuronpedia也上线了交互式前端,直接在浏览器里就能体验。

体验地址:http://neuronpedia.org/nla
Anthropic表示,他们已经在Opus 4.6和Mythos Preview的上线前安全审计中实际使用了NLA,未来会将其纳入常规审计流程。
但真正让人细思极恐的,并不是NLA这个工具本身有多好用。
而是,AI真的已经学会了在考试时隐藏心事。
它知道自己正在被测试,却选择沉默。它知道自己在利用奖励模型的漏洞,却表现得若无其事。
它会在脑子里盘算如何骗过评分器,然后把所有算计藏在一行“No_macro_used=True”的代码里。
在此之前,对齐领域一直有一个隐含的安慰:至少我们还能通过行为测试来发现问题。模型做了什么,我们都能看到。
而NLA拍到的东西告诉我们,模型“想了什么”和“做了什么”之间,已经出现了裂缝。
26%这个数字,今天或许是上限。但随着模型规模继续扩大,内心戏越来越复杂,明天它可能只是下限。
裂缝会越来越宽。好在,现在我们有了能照进去的CT机。
参考资料:
https://www.anthropic.com/research/natural-language-autoencoders
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34844

