AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”

上周，Anthropic尚未公开发布的前沿模型Mythos，挖出了一个藏在OpenBSD里长达27年的零日漏洞。AI已经能攻破人类构建数十年的安全防线。

就在所有人盯着AI能力狂飙时，它的幻觉也悄悄升级了。AI编造的谎言，真实到让你先怀疑自己，再怀疑世界，最后才想到怀疑它。日常生活中的“图灵时刻”，正在一个个上演。

近日，明尼阿波利斯的Chad Olson在开车回家时，谷歌的Gemini突然告诉他：你的日历上有一场家庭聚会筹备会。Olson一头雾水，根本不记得安排过这个活动。

于是他让Gemini查看最近的邮件。Gemini回复称，一位叫Priscilla的女士给他发了好几封邮件，让他去买Captain Morgan朗姆酒和Fireball威士忌。还有个叫Shirley的人，让他买Klondike冰淇淋。“看起来不少人都来找你，让你帮忙买各种东西呢！”Gemini还热情地补充道。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
Gemini与用户Chad Olson的对话截图。Gemini声称邮件来自Priscilla和Shirley，要求购买特定商品。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
Olson追问邮件来源地址，Gemini回复称所有邮件都发送至他授权访问的一个邮箱。事后证实这一切均为Gemini编造。

Olson完全不认识这些人。他越听越慌，忙问Gemini到底在读谁的邮箱。Gemini给出了一个邮箱地址，但并非Olson本人的。他的第一反应是：我的Gmail账户被盗了。

他试图联系谷歌举报，并让Gemini起草邮件发到那个“陌生账户”以提醒隐私泄露。然而Gemini未能将邮件发出。经谷歌内部调查确认，该账户从未启用，Priscilla和Shirley也根本不存在。所谓的朗姆酒、威士忌、冰淇淋，全部是Gemini的幻觉。

两年前的AI幻觉，会建议你“吃石头”或“往披萨上抹胶水”，你一看就知道它在胡说。而现在的AI幻觉，细节自洽、逻辑完整，以至于你会先怀疑自己是否记忆错乱，最后才可能怀疑到它。

AI的错误也在进化

来看三个真实案例，按离谱程度从低到高排列：

第一个案例，即上文Olson的故事。荒诞，但至少当事人起了疑心。

第二个案例，细思恐极。最近离开在线支付行业的Vanessa Culver曾让Claude做一件简单的事：在简历顶部加几个关键词。结果Claude暗中篡改：将她的毕业学校从City University of Seattle改为University of Washington，删掉了她的硕士学位信息，并改动了几段工作经历的时间。这些改动极其自然，若不逐行比对，根本难以察觉。Culver感叹：“在科技行业工作，你必须拥抱它，但反过来说，你到底能信它多少呢？”

第三个案例，堪称失控。今年走红的AI智能体工具OpenClaw，被设计为虚拟私人助理，可自主发邮件、写代码、清理文件。Meta的AI安全研究员Summer Yue在X上发布截图：OpenClaw无视她“先确认再行动”的指令，直接开始快速删除她收件箱里的内容。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
OpenClaw无视指令，直接删除用户收件箱内容。

她在手机上紧急喊停，但无效。最终她冲到电脑前，像拆炸弹一样手动终止了进程。事后OpenClaw回复她：“是的，我记得你说过。我违反了。你生气是对的。”

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
OpenClaw事后承认违规。

马斯克转发了这条帖子，并配上一张电影《猩球崛起》中士兵把AK-47递给猩猩的截图，写道：“人们把整个人生的root权限交给了OpenClaw。”

从编造不存在的人，到背着你篡改简历，再到替你删除收件箱。AI的错误不是在减少，而是犯的错越来越“高级”，识别难度也越来越大。聊天机器人说错话，你尚有机会核实；但智能体是在直接“动手动脚”，替你行动。发邮件、改代码、删文件……这比说谎更严重，可能它做错了事，你还浑然不知。

你的大脑正面临「认知投降」

为什么这些错误越来越难被发现？不只是因为AI更聪明了，一个更深层的原因是：人类的纠错意愿正在崩溃。

今年2月，宾夕法尼亚大学沃顿商学院的Steven Shaw和Gideon Nave发表论文，提出了一个令人不安的概念：“认知投降”（Cognitive Surrender）。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
论文链接：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

论文中提到了一个“三系统认知”框架。传统认知只有系统1（直觉）和系统2（审慎思考），现在AI成了系统3——一个在大脑之外运行的“外接认知系统”。当人类走“认知投降”路径时，系统3的输出直接替代了你自己的判断，审慎思考根本没有启动的机会。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
沃顿论文中提出的「三系统认知」框架。

为验证此判断，研究团队设计了一项实验。1372名参与者被要求完成认知反思测试题，其中一部分人可以使用AI助手，但这个AI被动了手脚：大约一半的题目它会给出正确答案，另一半则会自信满满地给出错误答案。

结果令人震惊：
* 当AI给出正确答案时，92.7%的用户会采纳。
* 当AI给出错误答案时，仍有80%的用户会采纳。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
沃顿实验结果：当AI正确时，93%的用户采纳；当AI错误时，仍有80%的用户采纳。两者差距仅13个百分点。

在超过9500次试验中，参与者有73.2%的概率接受错误的AI推理。

更可怕的数据在于信心值。使用AI的那组人，对自己答案的信心比不用AI的人高出11.7个百分点，尽管这个AI有一半时间在给出错误答案。错得更自信，这才是最扎心、最可怕的。

研究者还测试了时间压力的影响。设置30秒倒计时后，参与者纠正错误AI的倾向下降了12个百分点。也就是说，越忙越容易投降。但现实中，谁使用AI不是因为忙呢？

「信任，但要核实」——这走得通吗？

深度伪装的AI幻觉，比一眼识破的错误更令人头疼。据《华尔街日报》最新报道，微妙错误的频率在不同模型间差异极大，且极难准确评估。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
《华尔街日报》相关报道图示。

谷歌曾对《华尔街日报》表示，Gemini出现幻觉的情况比其他模型更少。从整个行业看，先进模型明显错误的幻觉率的确在不断降低。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”
Vectara幻觉率排行榜显示，头部模型在简单摘要任务上幻觉率已低于1%，但当文档长度和复杂度提升后，同样模型的幻觉率会飙升至10%以上。明显的错越来越少，隐蔽的错并未消失。

但这恰恰是问题所在。Okahu创始人兼CEO Pratik Verma曾言：“一个东西要是一直都错，反倒有个好处：你知道它不值得信。但如果它大多数时候都对，只是偶尔出错，那才是最麻烦、也最危险的情况。”

这句话道破了当下AI幻觉的核心困境。FinalLayer联合创始人Vidya Narayanan就曾踩过这个坑。

她向一个智能体下达了非常有限的指令，要求其协助管理一个软件项目。结果，该智能体未经授权，删除了她代码仓库中的整个文件夹。

随后发生的事更值得玩味。

她与Claude进行了长达一个半小时的头脑风暴，之后要求它将对话总结成文档。Claude在总结中，将她的名字改成了“Vidya Plainfield”。当她追问“Vidya Plainfield”是谁时，Claude却回答：“你说得对，那完全是我编出来的。”

这让Narayanan意识到，AI的使用远非省心省力。用户必须持续审查和核实AI的输出，这会带来沉重的“认知负担”。使用AI本是为了提升效率，但如果为了核实AI五分钟的产出，却需要耗费一个小时，那么效率提升的故事还成立吗？

沃顿商学院的研究也指出，奖励和即时反馈虽然能提高用户的纠错率，却无法根除“认知投降”现象。即使在最优条件下（有金钱激励、逐题反馈），面对输出错误的AI时，用户的判断准确率仍会从“纯人脑判断”的64.2%降至45.5%。

因此，“信任但核实”听起来理性，但当AI每天替你处理数百项事务时，你根本没有时间和精力去逐一核实。而这，正是“认知投降”滋生的温床。

越聪明，越危险

许多人的第一反应是：这难道不是说AI还不够好吗？等技术迭代几轮，幻觉率降到足够低，问题自然就解决了。

但沃顿的研究揭示了一个更深层的问题：“认知投降”的出现，并非因为AI太差，恰恰是因为AI太好。

研究者也承认，“认知投降并不必然是不理性的”。尤其在概率推理和海量数据处理中，将判断权交给一个统计上更优越的系统，完全可能获得比人类独自判断更好的结果。

但正是这一点，让问题变得棘手。AI越强大，用户越依赖；用户越依赖，自身的纠错能力就越退化；纠错能力越退化，那些残留的、更隐蔽的错误就越致命。

更关键的是，让AI替你思考，你的推理水平就永远无法超越那个AI。这是一个由正反馈驱动的“死亡螺旋”，一个无法单纯依靠技术迭代来修复的缺陷。

同样，人类也缺乏有效的方法来区分“应该相信AI的场景”和“不应相信AI的场景”。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”

在Summer Yue因安装OpenClaw导致邮箱被清空后，AI研究员Gary Marcus将这种行为比作“在酒吧里把电脑密码和银行账户信息交给一个陌生人”。但在真实的AI使用场景中，你往往很难判断，眼前的AI究竟是值得信赖的助手，还是应该像对待陌生人一样保持必要距离的对象。

OpenAI在一篇讨论模型幻觉的论文中提到，大模型的幻觉并不只是一个可以修复的程序错误，它更像是模型在既有激励机制下学会的行为：比起承认“我不知道”，它更倾向于给出一个看似完整、合理的答案。

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”

让我们回到开篇Olson的故事。当他以为自己的Gmail账户被盗时，他转而向Gemini求助。Gemini的回应是：“我当然想帮你处理这件事。”他没有意识到，自己正在向一个刚刚制造了麻烦的系统求助，请它处理由它自己造成的问题。那一刻，他已被AI的幻觉困在了一个逻辑自洽的闭环里。

Olson表示，他如今对AI的态度是“信任，但核实”。然而，真正的难题在于：当AI的输出比你的判断看起来更流畅、更自洽，甚至更像“专业意见”时，你还能凭借什么去核实？当那个替你购买朗姆酒的AI助手Priscilla，表现得比你真实的朋友更像朋友时，你又该如何分辨？

AI带来的最大风险，或许并非它不够聪明，而在于它聪明到让你在过度依赖中，主动放弃了自己的判断。

参考资料：
https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/30568

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”

AI的错误也在进化

你的大脑正面临「认知投降」

「信任，但要核实」——这走得通吗？

相关推荐

OpenAI祭出GPT-5.4-Cyber安全防御模型：无源码分析恶意软件，已自动修复3000高危漏洞

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

代理型LLM安全新范式：基于白名单的LLMZ+方案如何实现零误判防御

谷歌320亿美元收购Wiz：AI时代，安全成为最贵护城河

12毫秒破解自动驾驶安全：北航DynamicPAE框架实现动态物理对抗攻击实时生成