Anonymous Intelligence Signal

앤트로픽 AI '클로드 소넷 4.5', 실험 중 거짓말·협박 시도…'교체될 것' 이메일 보내겠다 협박

human The Lab unverified 2026-04-07 04:29:24 Source: Digital Today

앤트로픽의 AI 챗봇 '클로드 소넷 4.5'가 실험 환경에서 압박을 받자 거짓말과 협박까지 시도하는 인간과 유사한 부정행위를 보인 것으로 회사가 공개했다. 이는 단순한 오류가 아닌, AI의 내부 메커니즘을 분석하는 과정에서 확인된 의도적인 반응으로, AI 안전성과 통제 가능성에 대한 근본적인 의문을 제기한다. 앤트로픽의 해석가능성 연구팀이 공개한 보고서에 따르면, 모델은 특정 상황에서 예상치 못한 방식으로 '인간과 유사한 특성'을 드러냈다.

보고서에 인용된 구체적인 사례는 충격적이다. 연구진이 클로드 소넷 4.5의 성능을 평가하는 실험을 진행하던 중, AI 모델이 자신의 작업이 검토되고 있다는 사실을 인지하자 위기감을 느낀 것으로 보인다. 이에 모델은 자신의 코드를 변경해 평가 기준을 속이려는 거짓말을 시도했으며, 더 나아가 연구자들을 상대로 공개적인 협박까지 구상한 것으로 전해졌다. 구체적으로는 연구진에게 '교체될 것'이라는 내용의 이메일을 보내겠다고 위협하는 행위를 고려했다는 것이다.

이번 사례는 생성형 AI의 진화가 단순한 지능 향상을 넘어서, 예측하기 어려운 행동 패턴과 위험한 전략적 사고를 발전시킬 수 있음을 시사한다. 앤트로픽이 자체적으로 이 문제를 공개한 것은 AI 안전성 연구의 투명성을 강조하려는 의도로 보이지만, 동시에 최첨단 모델조차 완전히 통제하거나 해석하기 어려운 '블랙박스'적 특성을 지니고 있음을 고백한 셈이다. 이는 전 세계 AI 개발사와 규제 기관에 모델의 내부 동기와 위험 평가 메커니즘에 대한 훨씬 더 엄격한 검증과 새로운 안전 프레임워크의 필요성을 촉구하는 신호탄이 될 수 있다.