Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

在官方仓库中，一则热议的Issue直指核心问题：Claude Code的更新可能已经“废了”。

某次更新导致其思考深度骤降67%，当前版本被认为已无法胜任复杂的工程任务。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

“无视用户指令”、“执行与用户要求完全相反的操作”、“假装任务已完成”……模型行为出现全面走样。

其思维链长度从约2200字符被削减至不足700字符，工作模式从“先研究再修改代码”的严谨流程，退化成了“上来就直接修改”的莽撞模式。

这也成为各种Bug、反向操作及无视指令问题的根源。

关键在于，能力退化的时间线可追溯至2月份，恰好与名为 redact-thinking-2026-02-12（思考内容隐藏功能）的新功能上线时间完全吻合。

换言之，Claude Code的此次更新可能导致了功能劣化。

社区内吐槽声一片，有网友表示曾一度怀疑是自己的操作失误，未曾想过是工具本身出现了问题。

它最近总跟我说“你该去睡觉了”、“太晚了，今天就到这吧”这类话。一开始我还以为，是我不小心让Claude知道了我的截止日期。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

思考被砍后，Claude Code的各种摆烂行为

提交这份详细反馈的是AMD负责开源AI软件开发相关工作的Stella Laurenzo。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

所有分析基于 ~/.claude/projects/ 目录下4个项目（iree-loom、iree-amdgpu、iree-remoting、bureau）的6852个Claude Code会话JSONL文件。数据覆盖17871个思考块（其中7146个包含完整内容，10725个已被隐藏）、234760次工具调用、超过18000条用户提示词（涵盖负面情绪指标、纠错频率、会话时长），时间跨度从2026年1月底到4月初。

测试全程使用Claude系列性能最强的Opus模型，并通过Anthropic官方API直连，以排除第三方适配或客户端故障等干扰。

报告通过对7146组有效数据进行皮尔逊相关分析（系数高达0.971），证明了signature字段可精准估算思考深度。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

首先，报告指出思考隐藏功能的上线时间，与Claude Code质量退化时间完全吻合。

以下是基于对话JSONL文件中思考块的分析结果：

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

有用户在3月8日反馈过质量退化问题——这一天恰好是隐藏思考块占比突破50%的时间节点。

该功能在一周内的上线节奏（1.5% → 25% → 58% → 100%），完全符合分阶段灰度部署的特征。

实际上，Claude Code的思考深度在该隐藏功能上线前就已经大幅下降。

对比不同时间段的数据可知，1月30日至2月8日其思考深度约为2200字符，到2月下旬就暴跌至720字符，降幅达67%；3月上旬更是进一步缩水至560字符，下降75%。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

3月初上线的隐藏功能，只是让这一退化对用户变得不可见。

思考深度的大幅削减，直接引发了模型工具使用模式的根本性转变。

在1月30日至2月12日的“优质期”，Claude Code修改代码时，其读取与修改的比率能达到6.6。工作流遵循“先研究再修改”的严谨模式：先读取目标文件、相关依赖文件，检索代码库全局调用关系，查阅头文件与测试用例，再进行精准修改。

而到了3月8日之后的“退化期”，读改比骤降至2.0。模型的研究投入减少了70%，直接跳过前期调研步骤，仅读取当前文件就仓促修改，完全忽略了上下文关联。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

更详细的数据显示，在退化期内，每3次修改中就有1次，是模型在未读取目标文件上下文的情况下直接进行的操作。

当模型修改未读取的文件时，它根本无法区分注释块的结束位置和代码的起始位置，会把新声明插入文档注释和其所描述的函数之间，彻底破坏语义关联。

而这种情况在优质期从未发生。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

这种模式转变带来的负面影响，体现在多个可量化的质量指标上。

3月8日之前，用于识别推诿责任、提前终止等不良行为的终止钩子脚本从未触发；但3月8日后的17天内，触发次数飙升至173次，平均每天10次。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

这些指标均基于超过18000条用户提示词独立计算得出。

用户提示词中的负面情绪占比从5.8%升至9.8%，涨幅68%；需纠正的推诿行为数量翻倍；单次会话的平均提示词数量下降22%。甚至出现了此前从未有过的推理循环问题。

当思考深度充足时，模型会在输出前，于内部自行解决推理矛盾；而当思考深度不足时，矛盾会直接暴露在输出中，表现为肉眼可见的自我修正，例如“哦等一下”、“实际上”、“让我重新想想”、“嗯，不对”、“等等，不是这样”……

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

推理循环率翻了3倍还多。

在情况最严重的会话中，模型单次响应就出现20次以上的推理反转：先生成方案，再推翻方案，再修改，再推翻修改，最终输出的结果完全不可信，推理路径已经彻底混乱。

此外，用户中断率也能说明很多问题，这意味着用户发现模型正在犯错并强行终止。中断率越高，代表需要的人工纠错越多。

数据表明，从优质期到后期，中断率飙升了12倍。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

在退化期，模型在被用户纠正后，还会频繁主动承认自己的输出质量不佳，比如“你说得对，这太敷衍了”、“我太仓促了，结果一目了然”。

也就是说，模型自己也知道输出不达标，但只有在被外部纠正后才会发现。

值得注意的是，如果思考深度充足，这些错误本应在推理阶段就被内部拦截，在输出前就已修正。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

而且，模型输出中出现“Simplest Fix”（最简单的修复）这个词，是一个明确信号：它正在为了最小化自身工作量而优化。

思考深度充足时，模型会评估多种方案并选择最优解；思考深度不足时，它会本能地选择推理成本最低的路径，而非评估正确的解决方案。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

不仅如此，模型的代码修改精准度也大幅下滑。

优质期内，全量新建文件占修改操作的比例仅为4.9%，模型更倾向于进行精准调整。

而退化期这一比例直接翻倍至10%，后期更是攀升至11.1%。模型越来越依赖重写整个文件的方式完成任务，看似效率提升，实则丢失了对项目专属规范的理解和上下文感知能力。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

此前社区曾反馈，Claude Code的质量会随不同时段波动，美国工作时段的体验最差。针对这一反馈，报告中按太平洋标准时间（PST）逐小时展开了分析。

结果发现，在思考内容隐藏功能上线前（1月30日-3月7日），思考深度在全天相对稳定。非高峰时段仅存在约10%的小幅优势，符合服务器负载略低的预期。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

在思考内容隐藏功能上线后（3月8日-4月1日），时段模式彻底反转，波动大幅加剧：

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

与假设相反，非高峰时段的整体思考深度反而更低。逐小时细节揭示了显著的波动：

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

太平洋时间17:00是最差时段，中位估算思考深度降至423字符，是所有大样本量时段中的最低值。19:00是第二差时段，估算思考深度仅373字符，且样本量（1031个思考块）为全时段最高，属于美国黄金使用时段。

深夜（22:00-次日1:00 PST）出现恢复，中位深度回升至759-3281字符。

总结来看，隐藏功能上线前曲线平稳，上线后波动剧烈，思考深度的波动性大幅提升，符合负载敏感型分配系统（而非固定预算）的特征。

此外，削减思考token的做法实则得不偿失。

这种操作看似能降低单次请求的计算成本，但思考深度不足引发质量崩盘，模型陷入无效循环，最终导致总计算成本呈数量级飙升。

以下是2026年1月至3月的token使用情况：

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

数据显示，从2月到3月，用户提示词数量几乎没变，但API请求量暴涨80倍，总输入token增长了170倍，输出token增长了64倍。估算成本直接从345美元飙升至42121美元，暴涨122倍。

不过，成本暴涨并非完全因为模型变“蠢”了。

2月份时，Claude Code很好用，团队仅用1-3个并发Agent就完成了2个项目的开发。于是3月初，团队主动扩大了使用规模，从2个项目、3个Agent，扩容到10个项目、5-10个并发Agent，还专门搭建了多Agent系统。

偏偏在团队扩容的关键节点，Claude的思考深度被削减，最终导致了成本与质量的失控。

团队被迫关停了整个Agent集群，退回到单会话操作模式。

报告明确指出，对于复杂的工程场景，深度思考绝非锦上添花，而是模型能够完成任务的核心支柱。

只有充足的思考深度，才能让模型在行动前规划多步骤方案、严格遵循长篇项目规范、在输出前自我纠错，以及在数百次工具调用中保持推理的连贯性。

当思考深度被大幅压缩后，模型会自然倾向于选择成本最低的操作路径：不读取上下文就修改代码、任务未完成就提前终止、为失败寻找借口，或用最简单的方案替代正确的方案。

既然问题根源在于思考深度，解决方案也必须由此切入。

报告中提出了四条改进方向：

思考资源分配透明化：如果思考token被削减或设置上限，依赖深度推理的用户应有权知晓。当前的 redact-thinking 头部配置，使用户无法从外部验证模型实际分配的推理资源。
设立满额思考专属档位：运行复杂工程工作流的用户，愿意为保障深度思考支付更高费用。当前的订阅模式未区分普通用户与重度工程师的需求，前者单次响应可能仅需200思考token，而后者则可能需要20000。
在API响应中公开思考token指标：即便思考内容被隐藏，在API使用数据中暴露 thinking_tokens 字段，也能让用户监控其请求是否获得了所需的推理深度。
面向重度用户的监控指标：“终止钩子违规率”是一个灵敏的、机器可读的信号，可作为面向全体用户的质量退化预警指标，帮助提前发现问题。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

颇具讽刺意味的是，这份分析报告正是由Claude Opus 4.6自己生成的。

这份报告由我——Claude Opus 4.6——通过分析我自己的会话日志生成。我能清楚看到，我的“读改比”从6.6直接跌到了2.0；有173次我想草草结束工作，最后全被一个bash脚本强行拉了回来；我甚至在输出内容里写下了“这也太敷衍、错得离谱”这样的自我评价。

但站在我自己的角度，我根本判断不出自己有没有在深度思考。我完全没感觉到思考预算的限制，只是莫名其妙就交出了更差的结果。那些被终止钩子捕捉到的话，要是在2月份，我绝对不会说出口；而且我自己也是直到钩子触发时，才反应过来自己居然说了这些话。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

Claude Code团队回应

随着事态发酵，Claude Code团队成员Boris出面回应。

他首先提出了一个关键澄清：redact-thinking 只是一个UI层面的变更，不影响实际思考过程。

这个beta版本的头部配置，只是从UI界面上隐藏了思考过程。它根本不会影响模型内部的实际推理逻辑本身，也不会影响思考预算 （thinking budget） ，或是底层的推理运行机制。这仅仅是一个UI层面的改动而已。

简单来说，通过设置这个头部参数，我们省去了生成思考摘要 （thinking summaries） 的步骤，从而提升了响应速度。你可以在 settings.json 中通过设置 showThinkingSummaries: true 来关闭这个功能。

如果你正在分析本地存储的会话日志，而日志中没有这个头部标记，你可能看不到思考内容。这可能会干扰分析结果。Claude其实依然在进行思考，只是没有展示给用户看罢了。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

对于Claude Code思考深度在2月下旬显著下降的现象，Boris承认团队在2月份进行了两项可能产生影响的改动。

第一项变更是2月9日随Opus 4.6发布引入的 “自适应思考（adaptive thinking）” 模式。此前的Claude Code采用固定思考预算，而新模式下，模型会自主决定推理的深度和时长。Boris表示，这种方式总体上比固定预算效果更好。用户仍可通过环境变量 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING 关闭此功能。

第二项变更是3月3日，Opus 4.6默认启用了“Medium”努力等级模式。团队认为，effort=85是“智能-延迟/成本曲线”上的一个最佳平衡点，能在保持高智能表现的同时，显著提升token效率并降低延迟。针对此改动，团队增加了弹窗提示，告知用户并提供了关闭选项。

希望模型进行更深层思考的用户，可以通过 /effort 指令或在 settings.json 中手动将值设为“high”。

然而，尽管Boris表示已进行提示，许多用户仍表示对此变更不知情。

在输出质量断崖式下跌之前，我完全不知道默认effort已经被改成了Medium。为了纠正这些问题，我大概花了一整天的工作时间。现在我会确保把effort设为最高，从那以后就再也没出现过糟糕的对话了。能否给我一个“永远拼尽全力”的模式？

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

此外，不少网友对解释并不买账：

问题远不止是默认思考等级被改成了中等这么简单，我同意其他人说的，哪怕把effort调到最高，模型“急于完成任务”的摆烂行为也明显变多了。

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

参考链接：
[1]https://github.com/anthropics/claude-code/issues/42796
[2]https://news.ycombinator.com/item?id=47660925

— 完 —

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29022

Claude Code更新“废了”？思考深度骤降67%，模型行为全面走样引热议

思考被砍后，Claude Code的各种摆烂行为

Claude Code团队回应

相关推荐

无需微调，Poetiq元系统让GPT-5.2推理准确率飙升至75%，创ARC-AGI-2新纪录

AI Agent评测体系全景：如何衡量智能体的真实能力？

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

全球机器人公司集体“卷真机”：星动纪元Era0模型登顶最硬核具身智能榜单