Anthropic Claude Opus 4.7发布:赢了基准,输了口碑,开发者心智护城河变窄
Anthropic最新发布的Claude Opus 4.7模型,在漂亮的基准测试成绩单下,正面临开发者社区的尖锐质疑。这款被定位为“最强代码模型”的迭代,虽然在93项代码任务基准上比前代提升13%,并解决了Opus 4.6和Sonnet 4.6都未能攻克的问题,但其发布并未赢得预期的赞誉。相反,社区反馈揭示了更深层的产品危机:用户抱怨模型“变笨”,Anthropic自己也承认Opus 4.7仍不敌其内部封测的传奇模型“Mythos Preview”。更微妙的是,新模型呈现出一种“更听话但更死板”的气质,导致许多针对旧模型编写的、带有模糊空间的提示词(prompt)失效,迫使开发者不得不回头重写整个提示词库。
沃顿商学院教授Ethan Mollick的批评更为尖锐,他指出了Opus 4.7“自适应思考”机制中存在的偏见:该模型倾向于将非代码、非数学任务(如分析、写作、研究)默认归类为“低努力”档位,从而在这些场景中“偷懒”,导致产出质量甚至不如前一代。Mollick感慨,这似乎反映了AI公司陷入了一种“只有技术工作才是智力工作”的认知偏差。这种偏差直接削弱了模型作为通用助手的实用性。
就在同一天,老对手OpenAI更新了Codex,并提出了一个极具针对性的新口号:“Codex for (almost) everything”。这标志着竞争范式的转变。OpenAI不再局限于在“最强代码模型”的赛道上与Anthropic缠斗,而是将目标转向构建一个能操作整台电脑、查看浏览器、生成图像、跨Slack/Gmail/Notion拉取上下文、并在后台并行运行多个任务的“超级工作台”。一个关键的数据点是,GPT系列的代码能力在过去一年已快速追赶上来了。当Anthropic继续加码“最强coding模型”时,它在开发者心智中构建的护城河,可能正在悄然变窄。