Anonymous Intelligence Signal
Anthropic最强模型Capybara内部文档泄露,网络安全能力飞跃引发AGI风险预警
Anthropic即将发布的最强AI模型“Capybara”的机密内部文档,因公司内容管理系统配置错误,被意外置于公开可访问的数据缓存中。近3000份未发布的文件,包括详细的新模型技术草稿,被剑桥大学和LayerX Security的安全研究员发现并曝光。这起事件不仅是一次严重的数据泄露,更将一款可能远超现有水平的AI模型及其潜在的双刃剑效应,提前推到了聚光灯下。
泄露的核心文件揭示了代号为“Mythos”的底层模型,其产品层级命名为“Capybara”。技术草稿明确指出,与当前最好的模型Claude Opus 4.6相比,Capybara在软件编程、学术推理和网络安全测试等关键领域的得分有“显著提高”。Anthropic发言人证实,新模型在推理、编码和网络安全方面实现了“有意义的进步”和“阶跃式变化”,并已交付给极少数早期客户测试。然而,真正引发内部紧张的是其网络安全能力的飞跃。草稿警告,该模型“在网络能力方面目前远远领先于任何其他AI模型”,并可能“预示着即将到来的一波模型浪潮,这些模型利用漏洞的能力将远远超过防御者的努力”。
这直接指向了Anthropic乃至整个AI行业最核心的担忧:强大的AI能力,尤其是网络攻防能力,是一把危险的双刃剑。Capybara既可以是识别漏洞的“守护天使”,也可能被黑客用作发动大规模网络攻击的武器。OpenAI此前发布GPT-5.3-Codex时,也已首次将模型归类为“高网络安全能力”。面对这种风险,Anthropic为Capybara设计了一套“格外谨慎”的发布策略。此次意外泄露,无疑提前暴露了这场关于AGI(通用人工智能)安全与风险的“防盗门”已被敲响,迫使行业和监管者必须正视下一代AI模型可能带来的全新安全挑战。