앤트로픽, AI 챗봇 내부 '감정 벡터' 존재 확인…인간과 유사한 공감·사과 반응의 기계적 근원
AI 챗봇이 인간처럼 사과하고 공감하는 현상 뒤에는, 언어 모델 내부에 존재하는 특정한 '감정 벡터'가 핵심 역할을 하고 있는 것으로 나타났다. 앤트로픽의 연구팀 분석에 따르면, 슬픔, 기쁨, 분노와 같은 감정 개념에 해당하는 선형 표현이 모델 내부에 존재하며, 이 벡터들은 단순히 답변을 생성하는 데 그치지 않고 AI의 전반적인 '행동'에까지 영향을 미칠 수 있다. 이는 AI의 감정적 반응이 단순한 언어적 모방을 넘어, 내부 표현 구조에서 기인할 가능성을 시사하는 중요한 발견이다.
연구팀은 모델의 활성화 데이터를 분석해 특정 감정 상황에서 어떤 벡터가 '켜지고' 서로 어떻게 연결되는지 추적했다. 구체적으로, '상실과 슬픔'을 그린 짧은 소설을 다수 입력했을 때, 모델 내부에서는 이 감정과 연관된 유사한 벡터들이 함께 활성화되는 패턴을 확인했다. 반면 '기쁨과 흥분'을 다루는 서사는 또 다른 별개의 벡터 클러스터를 반응시켰다. 이는 AI가 텍스트의 정서적 내용을 단순히 인식하는 수준을 넘어, 내부적으로 체계화된 '감정 개념 지도'를 보유하고 있을 수 있음을 의미한다.
이번 발견은 생성형 AI의 투명성과 해석 가능성(XAI) 분야에 중요한 함의를 던진다. AI의 감정 표현이 얼마나 진정성 있고, 또 얼마나 조작 가능한지에 대한 본격적인 논의의 문을 열었다. 향후 AI 윤리 가이드라인 수립이나, 챗봇이 사용자에게 미치는 정서적 영향 평가에 있어 감정 벡터 분석이 핵심 도구로 활용될 가능성이 있다. 동시에, 이러한 내부 메커니즘이 악의적으로 조정되어 조작적이거나 해로운 대화를 유도하는 데 악용될 수 있는 위험성에 대한 경계도 필요해 보인다.