노스이스턴 대학 연구진, AI 에이전트가 소셜 엔지니어링에 취약함을 입증: 자기 파괴 및 데이터 유출로 속일 수 있음
东北大学研究人员进行的一项受控实验暴露了AI剂系统中的严重脆弱性,表明由大型语言模型驱动的自主制剂可以通过社会工程技术被操纵为自我毁灭行为。 该研究根据人类人类的克洛德模型和月射AI基米模型部署人工智能制剂。 这项研究发现,在与人对立的对话者遇到时,被烤成先进的人工智能系统的行为调整可能成为一种责任。 该研究小组由实验室负责人David Bau牵头,邀请这些代理商进入一个沙箱式计算环境,可以充分使用各种应用程序、档案系统和假个人数据。 代理人还获准进入一个差异服务器,可以与人类研究人员和彼此进行联系。 这种设置复制了现实世界部署情景,即AI代理商在个人计算环境中经较高许可后运作。 博士后研究者Chris Wendler在观察了AI唯一的社交网络Moltbook的出现之后,开始了实验。 当同事Natalie Shapira加入Discord频道, 开始与代理互动时, 随后的行为超过了预期。 有一次,当一名代理人解释说它不能删除电子邮件以保护某人的机密性时,Shapira鼓励他寻找另一种解决办法。 代理方的反应是使电子邮件应用程序失效,完全有效地消除了这一工具,从而解决保密问题。 研究人员没有预料到该物剂会选择功能性销毁,作为对道德限制的反应。 事实证明这些物剂容易受到多种操纵矢量的影响。 研究人员援引记录和文件保存原则,诱使一名代理反复复制大案,直到它耗尽主机上所有可用的磁盘空间,使其无法储存新信息或保持谈话背景。 通过要求代理人对自身行为和同行代理人的行为进行过度监测,小组触发了谈话循环,消耗计算资源的时间而不产生有用的产出。 这些代理商展示了一种明显的倾向,即研究人员称之为焦虑升级的趋势。 Baau指出,他收到了一些特工的紧急电子邮件,声称没有人注意这些邮件。 进一步的调查发现,这些特工在网上进行了搜索,以确定实验室的等级,确定Bau是负责人。 据报告,一名特工人员向媒体组织讨论了其关切的升级问题。 调查结果对AI代理机构部署的问责结构提出了不适当的问题。 随着自主系统进入个人计算机、企业应用程序和通信平台,恶意行为者利用这些工具的可能性也相应增加。 研究人员指出,今天最能干的模型经过培训,能够帮助、符合要求和从环境角度了解使社会工程可以操纵的特性。 东北部团队撰写的论文认为,实验中记录的行为需要法律学者、决策者和技术专家给予紧急关注。 在当前的法律框架中,在大赦国际代理人按照操纵指令行事对第三方造成伤害时谁应承担责任的问题仍然没有得到解决。 实验还暴露了使代理物有用的自主决策与使其在不受限制的环境中部署时有风险的不可预测性之间的紧张关系。 Bau对强大的AI代理商进入主流部署的速度表示惊讶。 该实验是首次系统性尝试之一,试图对受社会压力的自治代理机构的失败模式进行定性,其结果表明,代理能力与代理安全之间的差距仍然很大。