The Lab · 2026-04-09 11:59:31 · 36氪最新 (RSSHub)
Claude 正在“偷偷降智”,而用户们持续数月的糟糕体验,如今被一份无可辩驳的数据日志彻底坐实。从今年2月开始,大量开发者就察觉到 Claude 的输出质量明显下滑:回答变得更浅薄、急于给出结果,甚至在简单任务上频繁失败。与此同时,过去罕见的“停止钩子”违规提示激增,Token 消耗飙升。面对用户的集体抱怨,Anthropic 官方长期保持沉默,或建议用户“检查设置”,直到有人用数据撕开了这层窗户纸——Claude 的“思考深度”据称已暴跌了67%。
几天前,AMD 的 AI 总监 Stella Laurenzo 在 GitHub 上甩出了一记重锤:一份基于近三个月内 6852 次真实会话的监测日志。这份数据量化了开发者们的直观...
The Lab · 2026-04-13 12:33:02 · 36氪最新 (RSSHub)
Anthropic的旗舰模型Claude Opus 4.6正面临一场严重的信任危机。最新的BridgeBench评测报告给出了冰冷的数据:该模型的全球排名从第2名垂直坠落至第10名。其准确率从83.3%断崖式跌至68.3%,而幻觉率则几乎翻倍,增加了98%。这一实锤证据终结了所有用户的疑问——Claude Opus 4.6确实变差了,并非用户自身的问题。AMD的AI总监也证实了Claude Code在复杂任务上已“不可用”。对于依赖该模型处理关键任务的用户而言,这种未经告知的性能降级无异于一场背叛,引发了“这怎么可能合法?”的广泛质疑。
就在全网群嘲、用户感觉上当受骗之际,Anthropic的动向却指向了另一个战场。疑似内部工具界...
The Lab · 2026-04-15 00:33:05 · 36氪最新 (RSSHub)
Anthropic 的旗舰模型 Claude Opus 再次陷入“降智”争议。大量用户在社交媒体上抱怨,最新版本 Opus 4.6 的思考深度和推理能力显著下降,同时幻觉问题加剧,而用户为此付出的 Token 消耗却并未减少。有用户直言,过去两个月 Opus 4.6 被“大幅度削弱”,实际体验甚至被比作性能更低的 Sonnet 3.5,如同“披着狮子皮的狗”。
具体测试加剧了用户的疑虑。有博主用经典的“走路还是开车去洗车”问题对 Opus 4.6 和旧版 Opus 4.5 进行对比测试。结果显示,Opus 4.6 连续五次都错误地选择了“走路去”,而切换回 Opus 4.5 后,模型则能正确理解任务需要开车。用户普遍反映,新版本的...
The Lab · 2026-04-16 05:03:10 · 钛媒体
Claude Opus 正在经历一场信任危机。近期,大量用户反馈这个曾被视为最聪明的AI模型之一,其表现正悄然发生令人不安的转变。用户普遍感到,模型虽然回答速度更快,但推理过程却变得更短、更敷衍,仿佛跳过了关键的思考步骤。从零星的抱怨到Reddit社区内密集涌现的高度一致的负面反馈,一种共识正在形成:Claude Opus 可能真的“变蠢了”。
讨论的焦点迅速从主观感受转向了具体数据。一份基于Claude Code历史交互日志的分析报告指出,自2月模型更新以来,模型在处理复杂任务时的推理深度估计下降了惊人的67%。报告链接在社区内广泛传播。尽管作者承认67%是基于签名长度与思考内容相关性的估算,并非直接测量,且一月份的基线日志已被...
The Lab · 2026-04-17 09:33:42 · 36氪最新 (RSSHub)
Claude Opus 模型的性能“降智”已成事实,并且伴随着变相涨价,这引发了重度用户和企业的强烈不满。AMD 高级总监 Stella Laurenzo 在对近 7000 份会话日志进行详细审计后发现,自 2 月份以来,模型的推理深度出现断崖式下滑。在处理复杂工程任务时,Claude 变得不再可靠,频繁出现逻辑断层、无法理解复杂指令,甚至倾向于用最简单的方案敷衍了事,或在任务中途莫名停止。第三方基准测试 BridgeBench 的数据更为直观:Opus 4.6 的准确率在短时间内从 83.3% 暴跌至 68.3%,排名也从第二名骤降至第十名。
面对质疑,Anthropic 官方负责人 Boris Cherny 承认,模型默认开启...
The Lab · 2026-04-17 12:33:19 · 华尔街见闻 (RSSHub)
Anthropic 旗下王牌模型 Claude Opus 的智能水平出现断崖式下滑,已从顶尖梯队跌落。这一发现并非来自普通用户,而是由 AMD 高级总监 Stella Laurenzo 在审计了近 7000 份会话日志后公开指出。分析覆盖了超过 2.3 万次工具调用,结果显示,自 2 月以来,模型在处理复杂工程任务时的推理深度骤降,频繁出现逻辑断层或无法理解指令。第三方基准测试 BridgeBench 的数据更为直观:Opus 4.6 的准确率在短时间内从 83.3% 暴跌至 68.3%,排名从稳居前二直接滑落至第十名。
面对用户质疑,官方负责人 Boris Cherny 承认,模型默认开启了“中等努力”模式,旨在平衡响应速度与算...