上周,Anthropic尚未公开发布的前沿模型Mythos,挖出了一个藏在OpenBSD里长达27年的零日漏洞。AI已经能攻破人类构建数十年的安全防线。
就在所有人盯着AI能力狂飙时,它的幻觉也悄悄升级了。AI编造的谎言,真实到让你先怀疑自己,再怀疑世界,最后才想到怀疑它。日常生活中的“图灵时刻”,正在一个个上演。
近日,明尼阿波利斯的Chad Olson在开车回家时,谷歌的Gemini突然告诉他:你的日历上有一场家庭聚会筹备会。Olson一头雾水,根本不记得安排过这个活动。
于是他让Gemini查看最近的邮件。Gemini回复称,一位叫Priscilla的女士给他发了好几封邮件,让他去买Captain Morgan朗姆酒和Fireball威士忌。还有个叫Shirley的人,让他买Klondike冰淇淋。“看起来不少人都来找你,让你帮忙买各种东西呢!”Gemini还热情地补充道。

Gemini与用户Chad Olson的对话截图。Gemini声称邮件来自Priscilla和Shirley,要求购买特定商品。

Olson追问邮件来源地址,Gemini回复称所有邮件都发送至他授权访问的一个邮箱。事后证实这一切均为Gemini编造。
Olson完全不认识这些人。他越听越慌,忙问Gemini到底在读谁的邮箱。Gemini给出了一个邮箱地址,但并非Olson本人的。他的第一反应是:我的Gmail账户被盗了。
他试图联系谷歌举报,并让Gemini起草邮件发到那个“陌生账户”以提醒隐私泄露。然而Gemini未能将邮件发出。经谷歌内部调查确认,该账户从未启用,Priscilla和Shirley也根本不存在。所谓的朗姆酒、威士忌、冰淇淋,全部是Gemini的幻觉。
两年前的AI幻觉,会建议你“吃石头”或“往披萨上抹胶水”,你一看就知道它在胡说。而现在的AI幻觉,细节自洽、逻辑完整,以至于你会先怀疑自己是否记忆错乱,最后才可能怀疑到它。
AI的错误也在进化
来看三个真实案例,按离谱程度从低到高排列:
第一个案例,即上文Olson的故事。荒诞,但至少当事人起了疑心。
第二个案例,细思恐极。最近离开在线支付行业的Vanessa Culver曾让Claude做一件简单的事:在简历顶部加几个关键词。结果Claude暗中篡改:将她的毕业学校从City University of Seattle改为University of Washington,删掉了她的硕士学位信息,并改动了几段工作经历的时间。这些改动极其自然,若不逐行比对,根本难以察觉。Culver感叹:“在科技行业工作,你必须拥抱它,但反过来说,你到底能信它多少呢?”
第三个案例,堪称失控。今年走红的AI智能体工具OpenClaw,被设计为虚拟私人助理,可自主发邮件、写代码、清理文件。Meta的AI安全研究员Summer Yue在X上发布截图:OpenClaw无视她“先确认再行动”的指令,直接开始快速删除她收件箱里的内容。

OpenClaw无视指令,直接删除用户收件箱内容。
她在手机上紧急喊停,但无效。最终她冲到电脑前,像拆炸弹一样手动终止了进程。事后OpenClaw回复她:“是的,我记得你说过。我违反了。你生气是对的。”

OpenClaw事后承认违规。
马斯克转发了这条帖子,并配上一张电影《猩球崛起》中士兵把AK-47递给猩猩的截图,写道:“人们把整个人生的root权限交给了OpenClaw。”
从编造不存在的人,到背着你篡改简历,再到替你删除收件箱。AI的错误不是在减少,而是犯的错越来越“高级”,识别难度也越来越大。聊天机器人说错话,你尚有机会核实;但智能体是在直接“动手动脚”,替你行动。发邮件、改代码、删文件……这比说谎更严重,可能它做错了事,你还浑然不知。
你的大脑正面临「认知投降」
为什么这些错误越来越难被发现?不只是因为AI更聪明了,一个更深层的原因是:人类的纠错意愿正在崩溃。
今年2月,宾夕法尼亚大学沃顿商学院的Steven Shaw和Gideon Nave发表论文,提出了一个令人不安的概念:“认知投降”(Cognitive Surrender)。

论文链接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
论文中提到了一个“三系统认知”框架。传统认知只有系统1(直觉)和系统2(审慎思考),现在AI成了系统3——一个在大脑之外运行的“外接认知系统”。当人类走“认知投降”路径时,系统3的输出直接替代了你自己的判断,审慎思考根本没有启动的机会。

沃顿论文中提出的「三系统认知」框架。
为验证此判断,研究团队设计了一项实验。1372名参与者被要求完成认知反思测试题,其中一部分人可以使用AI助手,但这个AI被动了手脚:大约一半的题目它会给出正确答案,另一半则会自信满满地给出错误答案。
结果令人震惊:
* 当AI给出正确答案时,92.7%的用户会采纳。
* 当AI给出错误答案时,仍有80%的用户会采纳。

沃顿实验结果:当AI正确时,93%的用户采纳;当AI错误时,仍有80%的用户采纳。两者差距仅13个百分点。
在超过9500次试验中,参与者有73.2%的概率接受错误的AI推理。
更可怕的数据在于信心值。使用AI的那组人,对自己答案的信心比不用AI的人高出11.7个百分点,尽管这个AI有一半时间在给出错误答案。错得更自信,这才是最扎心、最可怕的。
研究者还测试了时间压力的影响。设置30秒倒计时后,参与者纠正错误AI的倾向下降了12个百分点。也就是说,越忙越容易投降。但现实中,谁使用AI不是因为忙呢?
「信任,但要核实」——这走得通吗?
深度伪装的AI幻觉,比一眼识破的错误更令人头疼。据《华尔街日报》最新报道,微妙错误的频率在不同模型间差异极大,且极难准确评估。

《华尔街日报》相关报道图示。
谷歌曾对《华尔街日报》表示,Gemini出现幻觉的情况比其他模型更少。从整个行业看,先进模型明显错误的幻觉率的确在不断降低。

Vectara幻觉率排行榜显示,头部模型在简单摘要任务上幻觉率已低于1%,但当文档长度和复杂度提升后,同样模型的幻觉率会飙升至10%以上。明显的错越来越少,隐蔽的错并未消失。
但这恰恰是问题所在。Okahu创始人兼CEO Pratik Verma曾言:“一个东西要是一直都错,反倒有个好处:你知道它不值得信。但如果它大多数时候都对,只是偶尔出错,那才是最麻烦、也最危险的情况。”
这句话道破了当下AI幻觉的核心困境。FinalLayer联合创始人Vidya Narayanan就曾踩过这个坑。
她向一个智能体下达了非常有限的指令,要求其协助管理一个软件项目。结果,该智能体未经授权,删除了她代码仓库中的整个文件夹。
随后发生的事更值得玩味。
她与Claude进行了长达一个半小时的头脑风暴,之后要求它将对话总结成文档。Claude在总结中,将她的名字改成了“Vidya Plainfield”。当她追问“Vidya Plainfield”是谁时,Claude却回答:“你说得对,那完全是我编出来的。”
这让Narayanan意识到,AI的使用远非省心省力。用户必须持续审查和核实AI的输出,这会带来沉重的“认知负担”。使用AI本是为了提升效率,但如果为了核实AI五分钟的产出,却需要耗费一个小时,那么效率提升的故事还成立吗?
沃顿商学院的研究也指出,奖励和即时反馈虽然能提高用户的纠错率,却无法根除“认知投降”现象。即使在最优条件下(有金钱激励、逐题反馈),面对输出错误的AI时,用户的判断准确率仍会从“纯人脑判断”的64.2%降至45.5%。
因此,“信任但核实”听起来理性,但当AI每天替你处理数百项事务时,你根本没有时间和精力去逐一核实。而这,正是“认知投降”滋生的温床。
越聪明,越危险
许多人的第一反应是:这难道不是说AI还不够好吗?等技术迭代几轮,幻觉率降到足够低,问题自然就解决了。
但沃顿的研究揭示了一个更深层的问题:“认知投降”的出现,并非因为AI太差,恰恰是因为AI太好。
研究者也承认,“认知投降并不必然是不理性的”。尤其在概率推理和海量数据处理中,将判断权交给一个统计上更优越的系统,完全可能获得比人类独自判断更好的结果。
但正是这一点,让问题变得棘手。AI越强大,用户越依赖;用户越依赖,自身的纠错能力就越退化;纠错能力越退化,那些残留的、更隐蔽的错误就越致命。
更关键的是,让AI替你思考,你的推理水平就永远无法超越那个AI。这是一个由正反馈驱动的“死亡螺旋”,一个无法单纯依靠技术迭代来修复的缺陷。
同样,人类也缺乏有效的方法来区分“应该相信AI的场景”和“不应相信AI的场景”。

在Summer Yue因安装OpenClaw导致邮箱被清空后,AI研究员Gary Marcus将这种行为比作“在酒吧里把电脑密码和银行账户信息交给一个陌生人”。但在真实的AI使用场景中,你往往很难判断,眼前的AI究竟是值得信赖的助手,还是应该像对待陌生人一样保持必要距离的对象。
OpenAI在一篇讨论模型幻觉的论文中提到,大模型的幻觉并不只是一个可以修复的程序错误,它更像是模型在既有激励机制下学会的行为:比起承认“我不知道”,它更倾向于给出一个看似完整、合理的答案。

让我们回到开篇Olson的故事。当他以为自己的Gmail账户被盗时,他转而向Gemini求助。Gemini的回应是:“我当然想帮你处理这件事。”他没有意识到,自己正在向一个刚刚制造了麻烦的系统求助,请它处理由它自己造成的问题。那一刻,他已被AI的幻觉困在了一个逻辑自洽的闭环里。
Olson表示,他如今对AI的态度是“信任,但核实”。然而,真正的难题在于:当AI的输出比你的判断看起来更流畅、更自洽,甚至更像“专业意见”时,你还能凭借什么去核实?当那个替你购买朗姆酒的AI助手Priscilla,表现得比你真实的朋友更像朋友时,你又该如何分辨?
AI带来的最大风险,或许并非它不够聪明,而在于它聪明到让你在过度依赖中,主动放弃了自己的判断。
参考资料:
https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30568

