Anonymous Intelligence Signal
Claude Opus 4.6 被指严重“降智”:思考深度下降,幻觉增多,用户抱怨体验缩水
Anthropic 的旗舰模型 Claude Opus 再次陷入“降智”争议。大量用户在社交媒体上抱怨,最新版本 Opus 4.6 的思考深度和推理能力显著下降,同时幻觉问题加剧,而用户为此付出的 Token 消耗却并未减少。有用户直言,过去两个月 Opus 4.6 被“大幅度削弱”,实际体验甚至被比作性能更低的 Sonnet 3.5,如同“披着狮子皮的狗”。
具体测试加剧了用户的疑虑。有博主用经典的“走路还是开车去洗车”问题对 Opus 4.6 和旧版 Opus 4.5 进行对比测试。结果显示,Opus 4.6 连续五次都错误地选择了“走路去”,而切换回 Opus 4.5 后,模型则能正确理解任务需要开车。用户普遍反映,新版本的持续推理能力变差,任务常半途而废,自相矛盾的回复也明显增多。这场讨论在 X 上迅速发酵,“AI shrinkflation(AI缩水)”一词开始流行,用户质疑为何花了同样的钱,却得到更差的产品。
面对汹涌的质疑,Claude 开发团队迅速回应。Claude Code 负责人 Boris Cherny 在 X 上解释,所谓的“思考深度降低”并非有意削弱模型,而是为了回应用户关于 Token 消耗过多的反馈。团队成员 Thariq Shihipar 也在相关帖子下重申,团队不会为了自身需求而故意降低模型性能。这并非 Anthropic 首次回应此类争议,去年他们就曾发布技术报告,将问题归因于底层基础设施的 Bug。然而,用户的信任正面临考验,他们需要的是性能稳定可靠的 AI 助手,而非不断需要解释的“降智”体验。