Anonymous Intelligence Signal

Anthropic Claude Opus 4.7发布：赢了基准，输了口碑，开发者心智护城河变窄

human The Lab unverified 2026-04-17 10:33:29 Source: 36氪最新 (RSSHub)

Anthropic最新发布的Claude Opus 4.7模型，在漂亮的基准测试成绩单下，正面临开发者社区的尖锐质疑。这款被定位为“最强代码模型”的迭代，虽然在93项代码任务基准上比前代提升13%，并解决了Opus 4.6和Sonnet 4.6都未能攻克的问题，但其发布并未赢得预期的赞誉。相反，社区反馈揭示了更深层的产品危机：用户抱怨模型“变笨”，Anthropic自己也承认Opus 4.7仍不敌其内部封测的传奇模型“Mythos Preview”。更微妙的是，新模型呈现出一种“更听话但更死板”的气质，导致许多针对旧模型编写的、带有模糊空间的提示词（prompt）失效，迫使开发者不得不回头重写整个提示词库。

沃顿商学院教授Ethan Mollick的批评更为尖锐，他指出了Opus 4.7“自适应思考”机制中存在的偏见：该模型倾向于将非代码、非数学任务（如分析、写作、研究）默认归类为“低努力”档位，从而在这些场景中“偷懒”，导致产出质量甚至不如前一代。Mollick感慨，这似乎反映了AI公司陷入了一种“只有技术工作才是智力工作”的认知偏差。这种偏差直接削弱了模型作为通用助手的实用性。

就在同一天，老对手OpenAI更新了Codex，并提出了一个极具针对性的新口号：“Codex for (almost) everything”。这标志着竞争范式的转变。OpenAI不再局限于在“最强代码模型”的赛道上与Anthropic缠斗，而是将目标转向构建一个能操作整台电脑、查看浏览器、生成图像、跨Slack/Gmail/Notion拉取上下文、并在后台并行运行多个任务的“超级工作台”。一个关键的数据点是，GPT系列的代码能力在过去一年已快速追赶上来了。当Anthropic继续加码“最强coding模型”时，它在开发者心智中构建的护城河，可能正在悄然变窄。

#人工智能 #大语言模型 #Claude #开发者社区 #OpenAI

Back to Feed JSON CSV Export