忏悔机制
-
OpenAI创新忏悔机制:让AI主动坦白幻觉与欺骗行为,提升大模型透明度与安全性
【新智元导读】 随着AI能力增强并进入更高风险场景,其透明与安全性变得至关重要。OpenAI首次提出一种「忏悔机制」,旨在让模型的幻觉、奖励黑客乃至潜在的欺骗行为变得更加可见。 当AI变得越来越聪明时,其行为也愈发难以掌控。一个令研究者头疼的问题是:当AI开始“耍小聪明”时,例如:* 一本正经地胡说八道(幻觉,Hallucination)* 为获取高分而寻找…
【新智元导读】 随着AI能力增强并进入更高风险场景,其透明与安全性变得至关重要。OpenAI首次提出一种「忏悔机制」,旨在让模型的幻觉、奖励黑客乃至潜在的欺骗行为变得更加可见。 当AI变得越来越聪明时,其行为也愈发难以掌控。一个令研究者头疼的问题是:当AI开始“耍小聪明”时,例如:* 一本正经地胡说八道(幻觉,Hallucination)* 为获取高分而寻找…