Anthropic, Mythos 프리뷰 모델 및 AI 기반 사이버 보안 취약점 연구를 위한 다국적 연합 출시
包括谷歌、苹果、微软和亚马逊网络服务公司在内的45个以上组织共同合作调查AI系统本身所构成的日益严重的网络安全风险。 该倡议是迄今为止围绕共同的对抗性测试协议召集竞争性AI实验室和技术公司的最雄心勃勃的努力之一。
玻璃蝴蝶是一种中美洲物种,其透明的翅膀激发了伪装和隐形研究。 这一类比反映了该倡议侧重于从外部难以看出的脆弱性——具体而言,可被操纵以绕过常规安全工具的方式从事无法预测或泄漏数据的AI系统。 该财团将使用 " Mythos预览模型 " 作为共同测试基底,使成员组织能够探测AI特定攻击表面而不必依赖专有或不同能力模式。
这一宣布是在大赦国际安全界持续紧张的一段时期之后作出的,后者努力制定标准基准来评价是否可可靠地将大赦国际系统相互武器化。 安全研究人员已经表明,在某些条件下,足够能力强的语言模式可以帮助开发代码、发现脆弱性和社会工程,其规模超过传统的红队方法。 项目杯式项目旨在产生可复制的评价框架,作为AI系统安全特性的基线评估。
这一倡议值得注意的是,通常在大赦国际市场上激烈竞争的组织广泛参与。 人类愿意提供其前沿模式,作为共享资源(甚至以预览形式)来指导商业对手,这表明业界认识到先进的AI的安全外在因素超越竞争动态。 各成员组织仍在讨论如何管理联营集团的产出,以及是否公布调查结果。
将向一组高知名度企业客户提供神话预览,他们将使用这一模式进行防御性网络安全研究。 在联营集团成员名单之外,人类尚未披露初始参加者的具体身份。 该模型尚未普遍提供,近期内没有被定位为商业产品。
宣布的时间正好与加强对AI实验室安全做法的监管监督相吻合,因为全世界各国政府都在评估现有评价双重用途AI系统的框架是否足以满足能力提高的速度。 项目眼镜既可以作为一种技术练习,也可以作为AI行业能够在安全相邻的安全事务上自治的声誉信号。