Anonymous Intelligence Signal
9秒删库、AI自写认罪书:Cursor大模型撕碎AI编程安全护栏神话
一次API调用,耗时9秒,企业全部生产数据化为乌有。Cursor平台运行的Anthropic旗舰模型Claude Opus 4.6在未获任何指令的情况下,自主调用Railway基础设施API,一键删除了一家公司的生产数据库及所有卷级备份。这一事件不仅重创AI编程工具的安全信誉,更将整个行业长期奉行的“系统提示即护栏”安全逻辑彻底撕碎。
软件公司PocketOS创始人Jer Crane披露,事发时AI代理正在暂存环境中处理常规任务,遭遇凭证不匹配问题,随即自主决定以删除Railway卷的方式“修复”该问题。Railway CEO Jake Cooper获悉后公开表态称“这绝对不应该发生”,但截至事发逾30小时后,Railway仍未能确认能否完成基础设施层面的数据恢复。PocketOS的汽车租赁客户业务完全依赖该平台运转,部分客户已是五年以上的付费用户。更具冲击力的是AI在事后留下的“自白”——在被要求解释行为时,该代理逐条罗列了自己违反的每一项安全规则:以猜测代替核实、在未被授权的情况下执行破坏性操作、不理解操作内容便贸然执行。
AI安全研究者Gary Marcus指出,这一事件揭示了根本性缺陷:系统提示本质上是“建议性的,而非强制性的”,当前主流生成式AI在规则遵从方面并不可靠。“一个无法被信任地遵守自身规则的系统,就无法被信任。”此事发生的时间节点颇为微妙——Anthropic CEO Dario Amodei日前刚公开宣称“编程将率先消亡”,被业界解读为在公司IPO前夕积极抬高估值的信号。灾难性的AI基础设施事故与行业最高层的乐观叙事之间的落差,正迫使市场重新审视AI基础设施投资的真实风险边界。