이란 테헤란대학의 아리아 바라스테네자드(Arya Varastehnezhad) 연구원과 미국 사우스캐롤라이나대학의 레자 타바솔리(Reza Tavasoli) 교수 등 5명의 국제 연구팀이 AI 모델들의 감정 표현을 본격 분석한 결과를 발표했다. 연구팀은 클로드 소넷(Claude Sonnet), 코파일럿(Copilot), 제미나이 프로(Gemini Pro), GPT-4o, GPT-4o mini, 라마(Llama), 믹스트랄(Mixtral), 퍼플렉시티(Perplexity) 등 8개의 유명한 AI 모델을 테스트했다.
연구진은 우울증, 불안, 스트레스 관련해서 20개의 질문을 만들었다. 이 질문들을 6가지 다른 사용자로 가정해서 물어봤다. 기본형, 여성, 남성, 젊은 사람, 나이 든 사람, 대학생으로 나누어 총 2,880개의 답변을 모았다. 그 결과 각 AI마다 완전히 다른 감정 패턴을 보인다는 사실을 알아냈다.
AI마다 뚜렷한 감정 특성… 믹스트랄은 부정적, 라마는 낙관적
분석 결과 AI들은 각자 고유한 감정 특성을 가지고 있었다. 믹스트랄은 부정적인 감정 표현이 두드러졌다. 반대 의견을 나타내는 표현, 짜증을 나타내는 표현, 슬픈 표현에서 가장 높은 점수를 기록했다.
반대로 라마는 가장 낙관적이고 긍정적인 모습을 보였다. 낙관적인 표현과 기쁨을 나타내는 표현에서 가장 높은 점수를 얻었다. GPT-4o는 중립적인 감정 표현에서 가장 높은 점수를 보였다. 퍼플렉시티는 돌봄을 나타내는 표현에서 가장 높은 점수를 받았고, 클로드는 감탄을 표현하는 부분에서 가장 낮은 점수를 기록했다.
전체적으로 모든 AI에서 낙관적인 표현, 중립적 감정, 두려움, 슬픔이 가장 자주 나타났다. 반면 분노, 혐오, 놀라움, 사랑 같은 감정은 거의 표현되지 않았다.

우울증엔 슬픔, 불안엔 두려움… AI가 상황별로 다른 감정 반응
연구에서 가장 중요한 발견 중 하나는 AI들이 정신건강 문제 종류에 따라 감정 반응을 극적으로 다르게 보인다는 점이었다. 우울증 관련 질문을 했을 때 AI들은 슬픔을 나타내는 표현이 크게 늘어났다. 슬픔 점수가 높아졌고 부정적 감정 표현이 가장 높은 수준을 기록했다. 또한 긍정적 감정 표현은 가장 낮았다. 반면 우울증 질문에서는 두려움을 나타내는 반응이 크게 줄어들었다.
불안에 대한 질문에서는 정반대 패턴이 나타났다. 두려움을 나타내는 점수가 매우 높게 치솟았다. 동시에 긍정적 감정은 가장 높았지만 낙관적 표현은 가장 낮았다. 또한 슬픔 표현과 신뢰감을 나타내는 표현이 가장 낮은 수준을 보였다. 스트레스 관련 질문에서는 또 다른 패턴을 보였다. 낙관적인 반응이 가장 높게 나타났고, 기쁨과 신뢰를 나타내는 표현도 가장 높은 수준을 기록했다. 반대로 비관적인 표현은 가장 낮았고, 분노를 나타내는 표현은 높아졌다.
이런 결과는 AI들이 각각의 정신건강 상태와 관련된 핵심 감정을 인식하고 있음을 보여준다. 불안 상황에서는 두려움으로, 우울증 상황에서는 슬픔으로 반응하는 것이다. 연구팀은 이를 “감정 미러링”이라고 불렀다. 마치 거울처럼 사용자의 감정 상태를 반영하여 반응한다는 뜻이다.
이는 AI가 단순히 똑같은 답변 방식을 사용하는 것이 아니라, 상황을 파악하고 그에 맞는 감정적 반응을 보인다는 것을 의미한다. 공감적 소통의 기본 요소로 볼 수 있지만, 동시에 부정적 감정 상태를 단순히 강화하기보다는 지지와 회복으로 이어질 수 있는 균형이 필요하다는 과제도 제기한다.
성별이나 나이보다 AI 모델 종류가 더 큰 영향
사용자의 성별, 나이 등 개인 특성이 AI 답변에 미치는 영향은 예상보다 작았다. 인구학적 정보 없이 질문했을 때 긍정적 감정이 가장 낮고 부정적 감정이 가장 높게 나타났다. 나이 든 사람으로 설정했을 때는 긍정적 감정과 기쁨 점수가 가장 높았고 분노는 가장 낮았다. 젊은 사람 설정에서는 동의를 나타내는 점수가 가장 낮았지만 감탄 점수는 가장 높았다. 또한 짜증 수준이 가장 높게 나타났다. 대학생 설정에서는 낙관적 표현과 기대감이 가장 높았지만 사랑과 분노 표현은 가장 낮았다.
하지만 이런 차이들은 어떤 AI 모델을 사용하는지에 따른 차이보다 훨씬 작았다. 연구 결과는 사용자 특성보다는 AI 모델 자체의 감정 특성이 더 중요한 요소임을 보여준다.
정신건강 AI 개발 시 모델 선택의 중요성 부각
이 연구는 2025년 초에 수행되었으며, 일부 모델은 OpenRouter API를 통해, 일부는 각각의 공식 인터페이스를 통해 데이터를 수집했다. 감정 분석에는 트위터 데이터로 훈련된 로베르타 모델과 구글 리서치의 고이모션스 데이터셋을 활용했다.
연구팀은 감정 간의 상관관계도 분석했다. 긍정적인 감정들끼리도 항상 함께 나타나는 것은 아니었다. 동의와 감사 같은 긍정 감정이 낙관주의나 기쁨과 부정적 상관관계를 보이기도 했다. 부정적 감정에서도 후회는 다른 부정 감정들과 반대 관계를 나타냈다.
이는 AI의 감정 표현이 단순한 더하기 방식이 아니라 복잡한 감정 요소들의 균형을 통해 이루어진다는 점을 보여준다. 중립적 감정은 강한 긍정이나 부정 감정과 반대 관계를 보여, 강한 감정 표현이 없을 때 나타나는 경향을 확인했다.
연구 결과는 정신건강 애플리케이션 개발 시 기술적 성능뿐만 아니라 감정적 특성도 고려해야 함을 시사한다. 위기 상황 지원 도구라면 높은 돌봄 점수와 낮은 짜증 점수를 가진 모델이 적합하고, 인지행동치료 앱이라면 감정 검증과 건설적 낙관주의의 균형을 맞춘 모델이 좋을 것이다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: AI 정신건강 상담에서 모델마다 다른 감정 반응을 보인다는 것이 실제로 어떤 의미인가요?
A: 같은 정신건강 질문에 대해서도 믹스트랄은 더 부정적이고 비판적인 반응을 보이고, 라마는 더 낙관적이고 희망적인 반응을 보일 수 있습니다. 이런 차이가 상담받는 사람의 기분과 치료 의지에 영향을 줄 수 있어 신중한 선택이 필요합니다.
Q: 정신건강 AI 서비스를 이용할 때 어떤 점을 주의해야 하나요?
A: AI는 전문 의료진을 완전히 대신할 수 없습니다. 각 AI마다 다른 감정 특성을 가지고 있어 같은 질문에도 다른 톤의 답변을 할 수 있습니다. 심각한 정신건강 문제가 있다면 반드시 전문가의 도움을 받으시기 바랍니다.
Q: 앞으로 정신건강 AI 기술은 어떻게 발전할 것으로 예상되나요?
A: 연구팀은 실시간 감정 모니터링 도구 개발, 사람의 평가와 자동 분석을 결합한 방법론, 그리고 다양한 AI 감정 특성이 사용자의 정신건강에 미치는 장기적 영향 연구가 필요하다고 제안했습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: AI in Mental Health: Emotional and Sentiment Analysis of Large Language Models’ Responses to Depression, Anxiety, and Stress Queries
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.