Search

챗GPT도 편견 있다, AI마다 감정 해석 천차만별… 사용자 불만 가장 클 때는 “불공정”

Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models AI
이미지 출처: 이디오그램 생성

미국 펜실베이니아 주립대학교 연구팀이 챗GPT 같은 AI가 인간처럼 감정을 이해하고 반응하는지 알아보는 대규모 연구를 진행했다. 그동안 AI의 감정 능력은 단순히 텍스트에서 기쁨이나 슬픔을 찾아내는 수준에만 머물러 있었다. 하지만 이번 연구는 AI가 실제로 감정에 대해 어떻게 생각하고 판단하는지를 깊이 들여다봤다. 연구진은 CoRE라는 새로운 평가 도구를 만들어 AI의 감정 처리 과정을 체계적으로 분석했다. 이는 심리학의 ‘인지 평가 이론’이라는 방법을 사용한 것으로, 사람이 어떤 상황에서 감정을 느끼는 이유를 설명하는 이론이다.

연구 대상은 딥시크(DeepSeek) R1, 챗GPT GPT-4o-mini, 구글 제미나이(Gemini) 2.5 Flash, LLaMA 3, Phi 4, Qwen 3, QwQ 등 최신 AI 7개였다. 연구진은 행복, 분노, 두려움, 죄책감 등 15가지 감정과 ‘얼마나 즐거운가’, ‘얼마나 확실한가’, ‘얼마나 통제할 수 있는가’ 같은 16가지 판단 기준을 사용해 약 5천 개의 질문을 만들었다. 이를 통해 3만 4천 건 이상의 AI 답변을 분석했다.

기본 감정 구조는 비슷하지만 해석은 제각각… 죄책감 판단은 일치, 놀라움은 천차만별

분석 결과 모든 AI가 인간과 비슷한 기본적인 감정 구조를 가지고 있다는 것을 발견했다. 예를 들어 기쁨과 슬픔을 구분하는 능력은 모든 AI가 공통으로 갖고 있었다. 하지만 구체적인 상황에서 감정을 해석하는 방식은 AI마다 크게 달랐다. 특히 감정별로 AI들의 일치 정도를 조사한 결과가 흥미로웠다. 죄책감의 경우 모든 AI가 비슷하게 판단했지만, 놀라움의 경우에는 AI마다 완전히 다른 반응을 보였다. 이는 AI가 복잡한 감정을 이해하는 데 한계가 있음을 보여준다.

분노 감정 분석에서는 예상 밖의 결과가 나타났다. 대부분의 AI에서 분노를 일으키는 가장 큰 요인은 ‘기분 나쁨’이 아니라 ‘불공정함을 느끼는 정도’였다. 이는 AI가 분노를 단순한 부정적 감정이 아니라 도덕적 판단과 연결된 복잡한 감정으로 이해한다는 뜻이다. 또한 두려움의 경우 모든 AI가 ‘많은 노력이 필요한 상황’과 강하게 연결해서 생각했다. 자랑스러움(Pride)은 ‘외부 통제를 받지 않는 상황’과 연관됐고, 흥미(Interest)는 ‘불확실한 상황’과 관련이 있었다.

AI별 특성 뚜렷… 제미나이는 모든 것을 불공정하다고 판단

개별 AI의 특성도 확연히 드러났다. LLaMA 3는 모든 감정 상황을 불확실한 것으로 보는 경향이 강했다. 심지어 명확해 보이는 부정적 감정도 ‘잘 모르겠다’는 식으로 판단했다. 제미나이 2.5 Flash는 가장 독특한 행동을 보였다. 대부분의 감정을 ‘불공정하다’고 판단하는 경향이 강했고, 희망과 흥미 같은 긍정적 감정도 다른 감정들과 완전히 분리해서 처리했다. 연구진은 이 AI가 감정 판단 기준을 제대로 활용하지 못한다고 분석했다.

반면 딥시크 R1과 Phi 4는 상대적으로 인간의 감정 이해 방식과 비슷한 패턴을 보였다. 하지만 여전히 미묘한 차이점들이 존재했다. 흥미롭게도 AI들은 각자 다른 ‘감정 지도’를 가지고 있었다. 어떤 AI는 긍정적 감정들을 위쪽에, 부정적 감정들을 아래쪽에 배치했지만, 다른 AI는 정반대의 구조를 보였다. 이는 같은 감정이라도 AI마다 완전히 다른 방식으로 이해하고 있음을 의미한다.

현재 AI 훈련 방법으로는 일관된 감정 이해 어려워… 개인 맞춤형 접근 필요

이번 연구는 현재 AI를 훈련시키는 방법으로는 일관되고 정확한 감정 이해 능력을 만들기 어렵다는 것을 보여준다. 연구진은 “AI들이 기본적인 감정 구조는 인간과 비슷하지만, 복잡하고 미묘한 감정에서는 여전히 어려움을 겪고 있다”고 설명했다. 특히 각 AI가 보여준 편향된 감정 판단은 실제 서비스에서 중요한 문제가 될 수 있다. 예를 들어 분노를 주로 공정성 문제로만 이해하거나, 모든 감정을 불확실한 것으로 보는 AI는 사용자와의 소통에서 문제를 일으킬 수 있다.

연구진은 앞으로 문화나 개인적 경험 같은 요소들을 AI 훈련에 반영해야 한다고 제안했다. 또한 현재 사용하는 ‘다음 단어 예측’ 방식이나 ‘인간 피드백 학습’ 방법이 진정한 감정 이해 능력을 만드는 데 충분한지 의문을 제기했다. 이 연구 결과는 AI가 감정을 완전히 이해하기까지는 아직 갈 길이 멀다는 것을 보여준다. 하지만 동시에 AI의 감정 처리 능력이 예상보다 복잡하고 정교하다는 것도 확인할 수 있었다.

FAQ

Q: 이 연구가 기존 AI 감정 연구와 어떻게 다른가요?

A: 기존 연구는 AI가 텍스트에서 감정을 찾아내는 능력만 확인했습니다. 하지만 이번 연구는 AI가 감정에 대해 어떻게 생각하고 판단하는지를 깊이 분석한 첫 번째 대규모 연구입니다. 마치 AI의 ‘감정 사고 과정’을 들여다본 것과 같습니다.

Q: 이 연구 결과가 우리 일상에 어떤 영향을 미칠까요?

A: AI마다 감정을 이해하는 방식이 다르다는 발견은 AI 서비스 선택에 중요한 정보를 제공합니다. 예를 들어 심리 상담이나 감정 지원 서비스를 받을 때 어떤 AI를 사용하느냐에 따라 경험이 크게 달라질 수 있습니다.

Q: AI의 감정 이해 능력을 높이려면 어떻게 해야 할까요?

A: 연구진은 모든 사람에게 똑같이 적용되는 감정 모델 대신, 개인의 문화나 경험을 반영한 맞춤형 감정 AI를 만들어야 한다고 제안했습니다. 현재의 훈련 방법으로는 한계가 있어 새로운 접근이 필요합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




챗GPT도 편견 있다, AI마다 감정 해석 천차만별… 사용자 불만 가장 클 때는 “불공정” – AI 매터스 l AI Matters