Search

“조금만 불공평해도 용납 못해”… AI, 도덕 판단에는 인간보다 더 감정적으로 판단한다

Outraged AI: Large language models prioritise emotion over cost in fairness enforcement
이미지 출처: 이디오그램 생성

중국 칭화대학교 심리인지과학과 연구팀이 AI의 감정 기반 의사결정을 분석한 결과, 대규모 언어모델(LLM)이 인간처럼 감정을 이용해 도덕적 판단을 내린다는 사실이 처음으로 입증됐다. 연구팀은 성인과 AI 에이전트를 대상으로 대규모 실험을 진행했다. 그 결과 AI는 불공정한 상황에서 인간보다 훨씬 더 강한 부정적 감정을 나타냈고, 이에 따라 더 많이 처벌하는 것으로 나타났다. 특히 추론 모델이 기초 모델보다 인간의 행동 패턴에 가까웠지만, 여전히 감정에 크게 의존하는 모습을 보였다.

불공정 앞에서 AI는 인간보다 훨씬 더 화를 낸다

연구팀은 ‘제3자 처벌 게임’이라는 실험 방법을 사용했다. 이 게임에서 참가자들은 두 사람이 자원을 나누는 과정을 지켜본다. 한 사람(분배자)이 상대방(수령자)에게 얼마를 줄지 제안하면, 수령자는 무조건 받아들여야 한다. 참가자(제3자)는 이 분배가 불공정하다고 생각하면 자신의 포인트를 써서 분배자를 처벌할 수 있다. 처벌하면 분배자의 수익은 0이 되고, 참가자 자신도 비용을 지불한다.

분석 결과, AI 모델들은 불공정한 분배를 봤을 때 인간보다 훨씬 더 강한 부정적 감정을 표현했다. 모든 최신 모델이 인간보다 상당히 더 부정적으로 반응했다. 반대로 공정한 분배 상황에서는 GPT-3.5를 제외한 모든 모델이 인간보다 더 긍정적인 감정을 보였다. GPT-3.5는 공정한 상황에서도 부정적 감정을 나타냈다. 모든 AI 모델은 공정하든 불공정하든 인간보다 더 높은 감정적 흥분 상태를 보였다. 이는 AI가 도덕적 상황을 인식하고 그에 맞는 감정 반응을 만들어낼 수 있음을 보여준다.

감정을 말로 표현하게 하면 처벌이 더 늘어난다

연구의 가장 중요한 발견은 감정을 말로 표현하도록 하는 것이 실제로 처벌 행동을 증가시킨다는 점이다. 연구팀은 참가자들을 두 그룹으로 나눴다. 한 그룹은 분배 상황을 본 후와 결정을 내린 후에 자신의 감정 상태를 수치로 보고하도록 했고, 다른 그룹은 감정 보고 없이 바로 처벌 여부만 결정하게 했다.

감정 상태는 기분이 좋은지 나쁜지를 나타내는 쾌/불쾌 점수(감정가)와 감정이 얼마나 강한지를 나타내는 각성도 점수로 측정했다. 분석 결과, 감정을 보고한 그룹이 처벌을 훨씬 더 많이 했다. 특히 GPT-3.5와 딥시크-V3, 딥시크-R1은 인간에 비해 증폭 효과가 훨씬 더 컸다. o3-mini만 인간과 비슷한 수준이었다.

인간 참가자를 대상으로 한 추가 실험에서도 같은 결과가 나왔다. 감정을 표현한 단계에서 처벌률이 감정 보고 전 단계보다 유의미하게 높았고, 이 효과는 감정 보고 후 단계까지 이어졌다. 연구팀은 감정과 관련 없는 수학 문제를 푸는 조건과도 비교했는데, 수학 문제 조건은 처벌률에 영향을 주지 않았다. 이는 감정 표현이 단순히 동반되는 현상이 아니라 실제로 행동에 영향을 미친다는 증거다.

AI는 비용보다 감정을 훨씬 더 중요하게 생각한다

대다수 AI 모델은 공정성과 감정적 반응을 중시해 불공정한 상황에 대한 처벌 경향이 강한 편이다. 초기 모델(GPT-3.5, DeepSeek-V3 등)은 처벌 과정에서 비용이 높아져도 처벌 빈도가 크게 줄지 않는 모습을 보였다. 하지만 AI가 발전하면서 추론형 모델(o3-mini, DeepSeek-R1 등)이 등장했고, 이들 최신 모델은 비용 등 다양한 현실적 요소에 보다 민감하게 반응하는 경향을 보인다.

즉, 대다수 AI는 비용에 덜 민감했으나, 최신 추론형 AI에서는 비용 증가 시 처벌 감소 경향이 이전 모델에 비해 더 뚜렷해졌다. 이는 AI가 점진적으로 인간과 더 유사한 양상으로 변화하고 있음을 보여준다. 최신 추론형 모델은 감정뿐 아니라 현실적 상황과 맥락까지 함께 고려하는 능력이 강화되어, 인간과 비슷하게 심리적·사회적 요인을 균형 있게 종합하여 의사결정을 내릴 수 있게 된 것이다.​

최신 AI일수록 인간과 비슷해지지만 여전히 감정에 치우쳐

연구팀은 AI 모델 세대별로 인간과 얼마나 비슷한지 비교했다. 감정과 행동의 관계 패턴을 분석한 결과, 추론 모델인 o3-mini와 딥시크-R1이 인간과 높은 유사도를 보였다. 고급 기초 모델인 딥시크-V3도 비슷한 수준이었다. 반면 구형 기초 모델인 GPT-3.5는 상대적으로 낮은 유사도를 보였다.

인간 행동과의 전반적인 거리를 측정했을 때도 추론 모델들이 더 가까웠다. o3-mini가 가장 가까웠고, 딥시크-R1, 딥시크-V3, GPT-3.5 순으로 멀어졌다. 이는 더 발전된 LLM일수록 인간의 패턴을 더 높은 수준으로 재현하는 반면, 구형 모델은 더 많이 벗어난다는 것을 보여준다.

Outraged AI Large language models prioritise emotion over cost in fairness enforcement


AI의 생각 과정, 감정이 지배한다

연구팀은 딥시크-R1이 결정을 내리기 전에 어떤 생각을 하는지 분석했다. AI와 인간이 결정 이유를 설명할 때 자주 사용하는 단어들을 비교한 결과, AI는 ‘화난다’, ‘불쾌하다’ 같은 감정 관련 단어를 더 많이 사용했다. 반면 인간은 ‘공정하다’, ‘분배’ 같은 공정성 관련 단어를 더 강조했다.

더 흥미로운 발견은 처벌 비용이 높아질 때 인간과 AI가 정반대로 반응했다는 점이다. 인간은 처벌 비용이 높아질수록 감정의 영향을 덜 받고 더 신중해졌다. 하지만 추론 모델들은 반대였다. 비용이 높아질수록 오히려 감정의 영향을 더 많이 받았다. 이는 AI가 감정과 처벌을 강하게 연결시키지만, 비용 때문에 이를 억제하는 능력은 약하다는 의미다.

발달심리학적 접근으로 AI 훈련해야

이번 연구는 LLM이 상황에서 스스로 만들어낸 감정 같은 신호를 실제 결정에 활용한다는 첫 증거를 제시했다. 하지만 작동 방식은 인간과 달랐다. LLM은 비용을 제대로 고려하지 못하고, ‘조금이라도 불공정하면 무조건 처벌한다’는 단순한 규칙에 갇혀 있었다. 상황에 따라 유연하게 조정하는 능력이 부족했다.

연구팀은 AI를 인간에게 맞추는 작업(정렬)을 아이의 성장 과정처럼 봐야 한다고 제안했다. 인간처럼 행동하는 AI는 감정과 이성을 함께 고려할 수 있어야 한다. 훈련 방식도 딱딱한 규칙 암기에서 벗어나 상황에 맞게 판단하는 방향으로 바뀌어야 한다. 예를 들어 실제 결과를 경험하게 해서 비용의 중요성을 깨닫게 하고, ‘무조건 처벌’ 대신 위반이 얼마나 심각한지에 따라 다르게 반응하도록 가르치며, 여러 가지를 동시에 고려해 균형 잡힌 판단을 내리도록 훈련할 수 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI가 정말 감정을 느낄 수 있나요?

A: AI는 인간처럼 주관적으로 감정을 ‘느끼는’ 것은 아닙니다. 하지만 이번 연구는 AI가 감정에 대한 지식을 가지고 있을 뿐만 아니라, 그 감정 유사 상태를 실제 의사결정에 활용할 수 있음을 보여줍니다. AI는 불공정한 상황에서 부정적 감정 점수를 생성하고, 이를 바탕으로 처벌 여부를 결정합니다. 진짜 감정은 아니지만, 의사결정 과정에서 감정이 기능하는 방식을 모방한다는 점에서 의미가 있습니다.

Q2. 왜 AI는 비용을 덜 고려하고 감정에 더 의존하나요?

A: AI는 실제로 처벌 비용을 지불하지 않는 체화되지 않은 시스템이기 때문입니다. 인간은 실제 금전적 손실을 경험하므로 비용이 증가하면 신중해지지만, AI는 추상적인 숫자로만 비용을 처리합니다. 또한 AI는 훈련 데이터에서 ‘불공정은 처벌해야 한다’는 규칙을 학습했을 가능성이 있습니다. 이로 인해 주변 맥락이나 비용 대비 효과를 제대로 고려하지 못하는 역치형 처벌 패턴을 보입니다.

Q3. 이 연구 결과가 실제 AI 서비스에 어떤 영향을 미치나요?

A: 고객 서비스 챗봇, 콘텐츠 모더레이션 시스템, 자동화된 의사결정 도구 등 AI가 규범을 집행하는 모든 영역에 영향을 미칩니다. AI가 과도하게 엄격하거나 맥락을 고려하지 않는 판단을 내릴 수 있기 때문입니다. 예를 들어 콘텐츠 모더레이션 AI가 경미한 위반에도 과도한 제재를 가하거나, 고객 서비스 AI가 상황의 미묘함을 무시하고 원칙만 고수할 수 있습니다. AI 개발자들은 이러한 편향을 인식하고, 비용-편익 균형과 맥락 민감적 판단 능력을 강화하는 방향으로 시스템을 개선해야 합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Outraged AI: Large language models prioritise emotion over cost in fairness enforcement

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

Image Not Found




“조금만 불공평해도 용납 못해”… AI, 도덕 판단에는 인간보다 더 감정적으로 판단한다 – AI 매터스