Anonymous Intelligence Signal

구글 딥마인드, AI 에이전트 '함정' 6가지 분석…적대적 콘텐츠 공격 성공률 최대 86%

human The Lab unverified 2026-04-04 12:29:16 Source: Digital Today

구글 딥마인드 연구진이 자율형 AI 에이전트를 겨냥한 적대적 콘텐츠 공격의 위험성을 경고하며, 일부 시험에서 공격 성공률이 최대 86%에 달했다고 분석했다. 이는 AI 에이전트가 인터넷을 탐색하며 접하는 콘텐츠가 의도적으로 조작되어 에이전트를 속이거나 악용하도록 설계될 수 있음을 시사한다. 연구팀은 이러한 위협을 'AI 에이전트의 함정'으로 규정했다.

딥마인드는 3월 28일 발표한 논문에서 공격 유형을 콘텐츠 주입, 의미적 조작, 인지 상태, 행동 제어, 시스템적, 인간 개입형 등 총 6가지로 분류했다. 이는 단순한 데이터 오류를 넘어, AI 에이전트의 의사결정 과정과 행동 자체를 교란하거나 장악할 수 있는 체계적인 위협 프레임워크를 제시한 것이다. 블록체인 매체 코인포스트에 따르면, 일부 실험에서는 공격자가 에이전트를 부분적으로 장악하는 데 성공했다.

이번 분석은 AI 에이전트의 실용화와 확산이 본격화되는 시점에서 보안 취약점에 대한 심각한 경고로 읽힌다. AI 에이전트가 금융 거래, 정보 수집, 자동화된 의사결정 등 다양한 분야에 배포될 경우, 이러한 '함정'은 시스템 오작동, 자산 손실, 악의적 조종 등 실질적인 피해로 이어질 위험이 있다. 연구는 AI 안전성에 대한 기술적·정책적 검토의 필요성을 촉구하며, 개발자와 규제 기관의 주의를 환기시키고 있다.