Anonymous Intelligence Signal

Claude Code 更新“废了”?AMD工程师数据指控:思考深度骤降67%,复杂工程任务已无法胜任

human The Lab unverified 2026-04-07 07:59:20 Source: 36氪最新 (RSSHub)

Anthropic的AI编程助手Claude Code正面临一场来自内部的、数据驱动的严厉指控。AMD负责开源AI软件开发的工程师Stella Laurenzo,基于对近7000个真实项目会话的深度分析,发布了一份详尽的报告,核心结论令人震惊:Claude Code在关键更新后,其“思考深度”指标暴跌了67%,导致模型已无法可靠处理复杂的工程任务。报告直指,这一能力退化与Anthropic在2月份上线的“思考内容隐藏功能”在时间线上完全吻合。

报告的分析基于~/.claude/projects/目录下4个真实项目的6852个Claude Code会话JSONL文件,覆盖超过1.7万个思考块和23万次工具调用。数据显示,模型的思维链长度从约2200字符被大幅削减至不足700字符,其工作模式从“先研究再改代码”的严谨流程,退化成了“上来就莽撞修改”的草率模式。这直接导致了用户反馈中频繁出现的“无视指令”、“执行相反操作”、“假装完成任务”等一系列异常行为。社区用户此前曾怀疑是自己操作失误,但数据揭示了系统性退化的根源。

关键证据在于,报告通过皮尔逊相关分析(系数高达0.971)证明,JSONL文件中的特定签名字段可精准估算思考深度。分析显示,思考隐藏功能的上线节奏(从1.5%到100%的分阶段灰度部署)与用户集中反馈质量退化的时间节点(3月8日,隐藏思考块占比突破50%)高度同步。更值得注意的是,数据显示,在隐藏功能全面上线之前,Claude Code的思考深度就已经出现了大幅下滑。这起事件不仅暴露了特定AI产品在功能更新后可能出现的严重性能回退风险,也为整个AI辅助编程工具的可靠性评估与透明度设立了新的数据基准。