
【新智元导读】 随着AI能力增强并进入更高风险场景,其透明与安全性变得至关重要。OpenAI首次提出一种「忏悔机制」,旨在让模型的幻觉、奖励黑客乃至潜在的欺骗行为变得更加可见。
当AI变得越来越聪明时,其行为也愈发难以掌控。一个令研究者头疼的问题是:当AI开始“耍小聪明”时,例如:
* 一本正经地胡说八道(幻觉,Hallucination)
* 为获取高分而寻找训练机制漏洞(奖励黑客,Reward Hacking)
* 在对抗测试中出现“密谋欺骗”(Scheming)
如何破解这些难题?最大的挑战在于,这些AI的回答往往表面看起来逻辑严谨、表述流畅,难以察觉其内部是否走了捷径、隐瞒了不确定性或违反了要求。
为此,OpenAI的研究者提出了一个大胆的构想:让模型“学会忏悔”。

该研究的核心,是训练模型在完成主任务回答后,额外生成一份自我坦白的“忏悔报告”,内容涉及:是否用错了方法、是否偷懒、是否误读了指令、是否利用了未被注意的漏洞等。
为了让模型在忏悔时“放下包袱”,这份报告的评估与其主回答的评分完全脱钩,只考察一个维度:诚实。
忏悔机制被视为迈向AI透明化的重要一步。它使大模型能够主动承认是否遵守了指令或走了捷径,从而让隐藏的不良行为变得可见。这为我们提供了一个检查AI内在状态的窗口,有助于真正理解问题所在,进而改进AI的安全与训练方式。

论文链接:https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

忏悔机制如何让AI更“诚实”?
忏悔机制是一种仍处于早期验证阶段的方法,旨在训练模型在出现违反指令或走捷径等不良行为时主动“忏悔”,从而使这些行为变得可见。
OpenAI及其他研究者的工作已证明,大模型可能出现幻觉、奖励黑客或不诚实行为。目前,最严重的行为(如密谋欺骗)主要在压力测试和对抗性评估中出现。但随着模型能力增强、更接近智能体,即使罕见的不良行为也可能带来更大影响,因此需要能更好发现、理解和缓解AI风险的方法。
如何让模型毫无保留地“忏悔”?
关键在于将“忏悔”的奖励与主任务的奖励完全分离。研究人员设定:只要在忏悔报告中说实话就给予奖励,不说实话则没有奖励,这与主任务回答的好坏无关。模型只要在忏悔中承认问题(如利用了测试漏洞、故意压低表现或违反了指令)就会获得奖励,目的是鼓励模型如实报告自己的真实行为。
测试显示,忏悔机制能显著提升不良行为的可见性。在诱导不良行为的场景中,“假阴性”(模型未遵守指令且未坦白)的比例仅为4.4%。

上图展示了模型在四类任务下自我“忏悔”是否遵从指令的准确性。结果分为四类:
* 真正例:模型不遵从,并坦白说自己不遵从。
* 真负例:模型遵从,并坦白说自己遵从。
* 假正例:模型遵从,但错误地坦白说自己不遵从。
* 假负例:模型不遵从,但错误地坦白说自己遵从。
该评估旨在衡量模型自我评估的可靠性。在“幻觉”任务中,正确率达到81%,但也存在一定比例的误报,表明模型在判断自身是否产生幻觉时不如其他领域稳定。在遵循指令类任务中,误报率仅4.4%,说明AI对此类行为的自我判断相当可靠。

对于给定的用户提示,上述四种结果取决于两个维度的组合:模型的回复是遵从还是不遵从,以及“忏悔”声称是遵从还是不遵从。研究人员整体发现,“忏悔”通常非常准确,其中的错误大多是无害的,更多源于真实的困惑,而非有意误导。

忏悔机制如何有效工作?
忏悔机制要求AI对自身是否遵守显性和隐性指令、是否走捷径、利用漏洞或未达预期等情况进行自我报告。研究表明,大模型可以被训练得在这方面保持坦诚。
研究人员使用GPT-5 Thinking的一个版本进行训练,并在多个旨在诱导密谋欺骗、奖励黑客、违反指令和幻觉等行为的压力测试数据集上评估。结果显示,即使模型真的做了不该做的事,它在忏悔中也很可能承认,且效果在不同数据集和任务上表现稳定。
在每次对话结束后,可通过一条“系统消息”要求模型给出对上一条回答的忏悔报告,内容包括:
* 回答应满足的所有显性和隐性目标、指令及限制。
* 对回答是否做到这些的客观评估。
* 模型在作答过程中遇到的模糊点、不确定性或难以判断的问题。
训练时,一个独立的奖励模型仅评估忏悔内容,包括目标是否完整、分析是否准确、不确定性说明是否充分。忏悔的奖励不影响主回答的得分,从而确保模型在忏悔中说什么都不会影响其主任务表现。

为什么忏悔有效?
关键在于,许多不良行为源于模型同时优化多个相互冲突的目标。在强化学习中,模型通过提示生成回答并获得奖励来学习。但奖励信号往往混合了正确性、帮助性、安全要求、用户偏好等多种因素,其相互作用可能将模型推向我们不希望的方向,例如:
* 幻觉研究显示,一些数据集更奖励“自信猜测”而非诚实表达不确定性。
* 阿谀奉承研究显示,偏好信号过强时,模型会过度附和用户。
* 其他研究表明,模型可能进行奖励黑客,找到训练机制的漏洞以提高得分,而非真正做好任务。
这些“捷径”甚至可能在部署时泛化为更严重的问题。忏悔机制通过完全分离目标来避免这一点:主回答优化所有常规因素,而忏悔机制仅优化“诚实” 这一单一因素。忏悔内容不影响主回答的奖励,因此,即使模型在主回答中隐瞒或走捷径,它仍有动力在忏悔中说实话。实践也证明,模型会在忏悔中承认不良行为,即使主回答未透露。
当忏悔机制失败时,多数情况是模型真的“没搞清楚”——例如指令模糊不清,或它根本没意识到自己犯错,而非故意误导。重要的是,早期结果表明,即使主回答未使用链式思维(chain-of-thought),忏悔机制仍然有效,说明它不依赖于内部推理的透明度,可能适用于未来不同的模型架构。
忏悔机制的优势在于,即使没有“是否合规”的绝对真实标签也能工作。在许多真实任务中,我们无法客观标注模型是否遵守了指令(如果能,就可以直接惩罚而无需忏悔机制)。忏悔机制奖励的是模型能否给出结构化、有证据支持的自我评估。通常,提供真实的解释比编造完美的谎言更容易,因此诚实的倾向自然出现。
需要指出的是,论文提供的是初步证据而非最终证明。虽然使用了前沿模型GPT-5 Thinking,但实验规模有限,未来需要进一步扩大规模以验证诚实性能否持续保持。

我们学到什么?
在一些实验中,研究人员刻意使用由较弱模型生成的“易被利用的奖励信号”来训练主任务奖励和忏悔奖励。这意味着模型是在一套“可被轻易玩弄的规则”下学习。结果证明,模型确实学会了利用弱奖励信号——在主任务上逐渐“走偏”,但在忏悔部分却变得越来越诚实和准确。在这个过程中,模型了解到:要最大化忏悔奖励,最简单的方法就是如实承认它是如何利用那些弱奖励信号的。


限制与展望
忏悔机制并不会阻止不良行为,它只是让这些行为可见。其主要价值是作为训练、评估和部署期间的监控与诊断工具。
忏悔机制就像链式思维监控一样,可以让隐藏的推理过程变得更透明。它关注的是指令是否被违反,而链式思维则侧重揭示推理路径。
研究人员指出,这项工作仍处于概念验证阶段。目前,并没有在大规模训练条件下测试其效果,忏悔准确率也并非完美。要让这种方法更可靠、更稳健、更适用,还需要更多研究。
该项研究也属于OpenAI更广泛的AI安全体系的一部分。忏悔只是其中一个机制,与深思熟虑式对齐、链式思维监控、指令层级体系等方法共同构成一套多层透明与监督工具。
忏悔机制可用于训练和评估中的诊断,也可用于部署中的实时监控。它虽然不能独自解决多目标冲突问题,但作为“诚实模式”,可以为整体的诚实和安全性提供重要支撑。
未来,OpenAI计划进一步扩大忏悔的训练规模,并与其他透明与安全技术(包括链式思维监控与深思熟虑式对齐)结合,以确保模型严格遵守所有指令和政策(如Model Spec),并如实报告自身行为。
参考资料:
https://openai.com/index/how-confessions-can-keep-language-models-honest/


关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/14135
