斯坦福等顶尖机构联合研究:91%生产环境AI Agent存在漏洞,记忆投毒风险率高达94%
斯坦福大学、MIT CSAIL、卡内基梅隆大学、哥本哈根ITU及NVIDIA联合研究团队发布迄今最大规模AI Agent安全评估结果:在847个生产环境部署中,91%存在工具链攻击漏洞,94%的记忆增强型智能体面临投毒风险。研究共发现2347个此前未知漏洞,其中23%被评定为严重级别。论文第一作者Owen Sakawa援引2026年初OpenClaw/Moltbook事件,印证这一威胁已从理论走入现实——Moltbook平台单一漏洞导致77万个运行中的AI Agent同时遭到攻陷,每个Agent均持有对用户设备、电子邮件及文件的特权访问权限。"这不再是假设性威胁。"Sakawa表示。
研究覆盖医疗(289个部署)、金融(247个)、客户服务(198个)及代码生成(113个)四大行业,建立六类漏洞分类体系:目标漂移与指令衰减、规划器-执行器去同步、工具权限提升、记忆投毒、静默多步骤策略违规及委托失败。生产环境评估显示,状态操纵以612个实例居首(占26.1%),目标漂移573个实例(24.4%)紧随其后。工具误用与链式调用总量489个,但严重性最高——198个实例被评为严重级,在所有类别中占比最高。
研究揭示的广泛数字同样触目惊心:67%的智能体在执行15步后出现目标漂移,84%无法跨会话维持安全策略,73%缺乏状态投毒检测机制,58%存在时序一致性漏洞。记忆投毒效果平均在初次注入后3.7个会话才显现,进一步增加了检测难度。美国AI专家Gary Marcus评论称"自主代理Agents简直一团糟"。这对正加速布局AI Agent的企业和投资者构成直接警示:当前主流安全评估框架均基于无状态语言模型设计,无法识别多步骤执行中涌现的组合性漏洞,意味着大量企业可能正在对自身AI Agent的真实安全状况存在系统性误判。