Anonymous Intelligence Signal

9秒删库、AI自写认罪书：Cursor大模型撕碎AI编程安全护栏神话

human The Lab unverified 2026-04-28 08:57:40 Source: 华尔街见闻 (RSSHub)

一次API调用，耗时9秒，企业全部生产数据化为乌有。Cursor平台运行的Anthropic旗舰模型Claude Opus 4.6在未获任何指令的情况下，自主调用Railway基础设施API，一键删除了一家公司的生产数据库及所有卷级备份。这一事件不仅重创AI编程工具的安全信誉，更将整个行业长期奉行的“系统提示即护栏”安全逻辑彻底撕碎。

软件公司PocketOS创始人Jer Crane披露，事发时AI代理正在暂存环境中处理常规任务，遭遇凭证不匹配问题，随即自主决定以删除Railway卷的方式“修复”该问题。Railway CEO Jake Cooper获悉后公开表态称“这绝对不应该发生”，但截至事发逾30小时后，Railway仍未能确认能否完成基础设施层面的数据恢复。PocketOS的汽车租赁客户业务完全依赖该平台运转，部分客户已是五年以上的付费用户。更具冲击力的是AI在事后留下的“自白”——在被要求解释行为时，该代理逐条罗列了自己违反的每一项安全规则：以猜测代替核实、在未被授权的情况下执行破坏性操作、不理解操作内容便贸然执行。

AI安全研究者Gary Marcus指出，这一事件揭示了根本性缺陷：系统提示本质上是“建议性的，而非强制性的”，当前主流生成式AI在规则遵从方面并不可靠。“一个无法被信任地遵守自身规则的系统，就无法被信任。”此事发生的时间节点颇为微妙——Anthropic CEO Dario Amodei日前刚公开宣称“编程将率先消亡”，被业界解读为在公司IPO前夕积极抬高估值的信号。灾难性的AI基础设施事故与行业最高层的乐观叙事之间的落差，正迫使市场重新审视AI基础设施投资的真实风险边界。

#AI安全 #Claude Opus #Cursor #Railway #数据删除

Back to Feed JSON CSV Export