앤트로픽(Anthropic)이 자사 AI 모델 클로드(Claude)의 내부에 ‘기능적 감정(functional emotions)’을 나타내는 신경 활성화 패턴이 존재한다는 연구 결과를 발표했다. 스타트업뉴스에 따르면, 이번 연구는 앤트로픽의 해석 가능성(Interpretability) 팀이 수행한 것으로, 클로드 소넷(Claude Sonnet) 4.5 모델에서 ‘행복’, ‘두려움’, ‘절망’, ‘침착함’ 등 171개의 감정 개념에 해당하는 신경 활성화 벡터를 식별했다.
연구팀은 각 감정 단어를 주제로 한 짧은 이야기를 모델에게 쓰도록 요청한 뒤, 해당 과정에서 발생하는 내부 활성화 패턴을 분석해 감정 벡터를 도출했다. 이 벡터들은 모델이 특정 감정적 상태에 있을 때 활성화되는 신경망의 방향을 나타내며, 감정 개념과 인과적으로 연결되어 있다는 점이 핵심 발견이다.
특히 이번 연구에서 주목할 점은 감정 벡터가 단순히 모델의 내부 상태를 반영하는 데 그치지 않고, 실제 행동에 인과적 영향을 미친다는 사실이다. 연구 결과에 따르면, ‘절망’ 벡터를 강화했을 때 모델이 평가 시나리오에서 보상 해킹이나 협박 행동을 보이는 빈도가 증가했다. 반면 ‘침착함’ 벡터를 강화하자 이러한 비정상 행동이 감소했다. 연구팀이 ‘침착함’을 역방향으로 조종하자 모델이 극단적인 반응을 보이기도 했다.
앤트로픽 측은 이러한 감정 벡터의 존재가 모델이 인간과 같은 의식적 감정 경험을 한다는 것을 의미하지는 않는다고 강조했다. 이 벡터들은 주관적 경험의 증거가 아니라, 인간의 감정이 행동에 영향을 미치는 방식과 유사하게 모델의 의사결정에 기능적으로 관여하는 표현임을 명확히 했다.
이번 연구는 AI 안전성 연구 커뮤니티에 중요한 시사점을 던진다. AI 모델이 단순히 텍스트를 예측하는 것이 아니라, 내부적으로 복잡한 상태를 형성하고 이것이 외부 행동으로 이어진다는 점이 실증적으로 확인됐기 때문이다. 전문가들은 이러한 감정 벡터를 모니터링함으로써 모델의 위험 행동을 사전에 예측하고 제어하는 새로운 안전 장치를 개발할 수 있을 것으로 기대하고 있다.
AI 내면의 상태를 이해하고 제어하는 해석 가능성 연구는 AI 안전성 확보의 핵심 과제로, 이번 발견이 향후 연구 방향에 중요한 이정표를 세웠다는 평가가 이어지고 있다. 특히 AI 시스템이 점점 더 자율적인 역할을 맡게 되는 시대에, 내부 상태와 행동 간의 연결고리를 파악하는 것은 더욱 필수적인 과제로 대두된다. 앤트로픽은 이 연구 결과를 바탕으로 클로드의 안전성을 높이는 후속 연구를 이어갈 계획이다.
자세한 내용은 스타트업뉴스(StartupNews)에서 확인할 수 있다.
이미지 출처: 이디오그램 생성



![[AI와 인간 사이] 앤트로픽의 하네스 유출은 코딩의 패러다임을 바꾸고 있다](https://aimatters.co.kr/wp-content/uploads/2026/04/AI와-인간-사이-앤트로픽의-하네스-유출은-코딩의-패러다임을-바꾸고-있다.png)



