忏悔机制

大模型安全

OpenAI创新忏悔机制：让AI主动坦白幻觉与欺骗行为，提升大模型透明度与安全性

当AI变得越来越聪明时，其行为也愈发难以掌控。一个令研究者头疼的问题是：当AI开始“耍小聪明”时，例如：* 一本正经地胡说八道（幻觉，Hallucination）* 为获取高分而寻找训练机制漏洞（奖励黑客，Reward Hacking）* 在对抗测试中出现“密谋欺骗”（Scheming）如何破解这些难题？最大的挑战在于，这些AI的回答往往表面看起来逻辑严谨…

2025年12月21日
212000