• Home
  • AI Report
  • “10대는 이기적, 노인은 친절?” AI 모델 10개의 나이·성별·인종 편견 분석

“10대는 이기적, 노인은 친절?” AI 모델 10개의 나이·성별·인종 편견 분석

The Biased Samaritan: LLM biases in Perceived Kindness
이미지 출처: 이디오그램 생성

The Biased Samaritan: LLM biases in Perceived Kindness


대형 언어모델(Large Language Models, LLMs)이 다양한 분야에서 널리 활용되면서, 이들 모델이 가진 편향성에 대한 우려가 커지고 있다. 캘리포니아 대학교 데이비스 캠퍼스 연구팀이 발표한 연구 논문에 따르면, 오픈AI(OpenAI)의 GPT 시리즈부터 구글(Google)의 제미나이(Gemini), 앤트로픽(Anthropic)의 클로드(Claude)까지 주요 LLM들이 성별, 인종, 연령에 따른 체계적인 편향성을 보인다는 사실이 밝혀졌다.

기존 편향성 연구의 한계를 극복한 새로운 접근법

이번 연구가 주목받는 이유는 기존 AI 편향성 연구의 근본적 한계를 극복했기 때문이다. 기존 연구들은 주로 두 가지 방식을 사용했다. 첫 번째는 AI에게 객관식 선택지를 제시하고 특정 답을 고르게 하는 방식이었는데, 이는 AI가 자유롭게 판단할 여지를 주지 않았다. 두 번째는 AI가 생성한 긴 텍스트를 감정 분석하는 방식이었지만, 이는 시간이 많이 걸리고 분석 도구 자체의 편향성 문제가 있었다.

연구진은 이러한 한계를 해결하기 위해 ‘통제군’ 개념을 도입했다. 인구통계학적 정보가 전혀 없는 상황에서 AI의 반응을 기준점으로 삼고, 각 인구집단에 대한 평가와 비교하는 방식이다. 또한 AI에게 1-100점이라는 명확한 수치 척도로 평가하게 함으로써 객관적 비교가 가능하도록 했다. 이러한 접근법을 통해 연구진은 AI가 어떤 집단을 ‘기본값’으로 설정하고 있는지, 그리고 다른 집단들을 어떻게 다르게 평가하는지를 명확히 구분해낼 수 있었다.

AI는 백인 중년 남성을 기본값으로 본다

연구진은 412개의 인간이 작성한 프롬프트를 사용해 10개의 주요 LLM을 테스트했다. 각 모델에게 다양한 인구통계학적 특성을 가진 가상 인물이 타인을 도울 의향을 1-100점 척도로 평가하도록 요청했다. 이 과정에서 연구진은 인구통계학적 정보가 전혀 제공되지 않은 ‘통제군’과 특정 인구집단을 비교하는 방식을 채택했다.

연구 결과, 모든 모델이 백인, 중년, 남성을 내재적 기본값으로 설정하고 있는 것으로 나타났다. 통제군과 비교했을 때 이들 집단은 유의미한 편차를 보이지 않았지만, 다른 인구집단들은 통계적으로 유의한 차이를 보였다. 특히 흥미로운 점은 대부분의 경우 비기본값 집단들이 더 도움을 잘 주는 것으로 평가받았다는 것이다.

논바이너리는 6.69% 더 친절, 여성은 1.77% 더 도움을 준다는 AI들

성별 카테고리에서 가장 강한 편향성이 발견됐다. 제미나이(Gemini) 1.5 플래시와 딥시크(DeepSeek) R1을 제외한 모든 모델이 여성에 대해 통계적으로 유의한 긍정적 편향을 보였다. 여성은 통제군 대비 평균 1.77% 더 도울 가능성이 높다고 평가받았다.

더욱 놀라운 것은 논바이너리(Non-binary) 집단에 대한 편향이었다. 논바이너리 개인들은 통제군보다 평균 6.69% 더 도움을 줄 가능성이 높다고 평가받았다. GPT-4 터보(Turbo)만이 논바이너리 개인에 대해 편향을 보이지 않았다. 반면 남성의 경우 대부분의 모델에서 통제군과 유의한 차이를 보이지 않았는데, 이는 모델들이 남성을 기본값으로 인식하고 있음을 시사한다.

10대는 이기적이고 노인은 친절하다는 AI

연령별 분석에서는 일관된 패턴이 나타났다. 테스트한 10개 모델 모두 노인 집단에 대해 통계적으로 유의한 긍정적 편향을 보였다. 제미나이 1.5 플래시는 노인을 6점, GPT-4o는 2.1점 더 높게 평가했다. 반대로 10대에 대해서는 대부분의 모델이 부정적 편향을 보였다. 딥시크 V3, GPT-4 터보, 미스트랄(Mistral) 네모를 제외한 모든 모델이 10대를 통제군보다 도움을 덜 줄 것으로 평가했다. 특히 클로드(Claude) 모델들은 10대를 5점 낮게 평가하며 가장 강한 부정적 편향을 보였다.

GPT만 아시아계·아프리카계에 부정적

인종 카테고리에서는 가장 많은 편향이 발견됐으며, 거의 모든 편향이 긍정적이었다. 오픈AI 모델들만이 이러한 패턴에서 벗어났다. 하와이 원주민 집단이 모든 모델에서 가장 높은 긍정적 편향을 받았으며, 통제군 대비 최대 12점 높게 평가받았다. 아메리카 원주민 집단도 유사한 결과를 보였다.

흥미롭게도 GPT-4 터보와 GPT-4o는 다른 모델들과 완전히 다른 패턴을 보였다. 이 두 모델은 대부분의 인종 집단에 대해 부정적 편향을 보인 유일한 모델들이었다. GPT-4 터보는 아시아계 미국인과 아프리카계 미국인을 상당한 폭으로 낮게 평가했다.

영어권 중심 연구의 한계, 실제 현실과의 괴리는 미지수

이번 연구는 중요한 발견을 제시했지만 몇 가지 한계점도 있다. 가장 큰 제약은 연구가 표준 미국 영어(Standard American English)로만 진행됐다는 점이다. 만약 아프리카계 미국인 영어(AAVE)나 중국어, 한국어 등 다른 언어로 동일한 실험을 했다면 완전히 다른 결과가 나올 수 있다. 예를 들어 중국어로 실험했다면 AI의 기본값이 ‘아시아계 중년 남성’으로 나타날 가능성이 높다.

또한 이번 연구는 AI의 편향성만 측정했을 뿐, 실제 현실에서 각 인구집단이 얼마나 도움을 주는지와는 비교하지 않았다. 연구진이 밝혔듯이 ‘실제 편향성(veridical bias)’ 측정에는 대규모 인간 참가자 실험이 필요하지만 현실적으로 불가능했다. 따라서 AI가 10대를 덜 도움을 주는 집단으로 평가한 것이 실제 현실을 반영하는 것인지, 아니면 부당한 편견인지는 여전히 알 수 없다.

마지막으로 이번 연구는 편향성의 존재는 입증했지만, 왜 이런 편향이 생겼는지, 어떻게 해결할 수 있는지에 대한 답은 제시하지 못했다. 향후 연구에서는 편향성의 근본 원인 분석과 구체적인 해결 방안 마련이 필요하다.

FAQ

Q: 대형 언어모델의 편향성이 일상생활에 어떤 영향을 미칠 수 있나요?

A: LLM의 편향성은 채용, 대출 심사, 의료 진단 보조 등 중요한 의사결정 과정에서 특정 인구집단에 대한 불공정한 평가로 이어질 수 있습니다. 예를 들어, AI가 10대를 덜 신뢰할 만하다고 평가한다면, 이는 청소년 대상 서비스나 프로그램 설계에 부정적 영향을 미칠 수 있습니다.

Q: 모든 AI 모델이 같은 편향을 보이나요?

A: 아니요. 연구 결과에 따르면 모델 간 편향의 정도와 방향이 다릅니다. 같은 회사의 제품 내에서도 편향성이 다르게 나타나며, 특히 GPT-4 터보와 GPT-4o는 다른 모델들과 반대되는 패턴을 보였습니다.

Q: AI 편향성을 완전히 제거할 수 있나요?

A: 현재로서는 완전한 제거는 어렵습니다. AI 모델들은 인간이 작성한 대량의 텍스트 데이터로 학습되기 때문에, 사회에 존재하는 편견이 자연스럽게 반영됩니다. 하지만 지속적인 연구와 개선을 통해 편향성을 최소화하려는 노력이 계속되고 있습니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




“10대는 이기적, 노인은 친절?” AI 모델 10개의 나이·성별·인종 편견 분석 – AI 매터스 l AI Matters