"사람을 그려줘"라고 했을 뿐인데, AI는 왜 항상 백인 얼굴을 만들어낼까

챗GPT나 제미나이 같은 AI 이미지 생성기에 “사람을 그려줘”라고 입력하면 어떤 얼굴이 나올까. 특정 인종이나 성별을 지정하지 않아도 AI는 스스로 ‘기본값 인간’을 선택한다. 볼로냐대학교 로베르토 발레스트리 연구자가 3,200장의 이미지를 생성해 분석한 결과, 중립적인 프롬프트(AI에게 내리는 명령어)는 결코 중립적인 결과를 만들어내지 않았다. AI가 아무 지시 없이 떠올리는 ‘평범한 사람’의 얼굴은 96% 이상이 백인이었다.

3,200장의 이미지가 드러낸 AI의 민낯

연구진은 구글이 개발한 제미나이 플래시 2.5 이미지와 오픈AI의 GPT 이미지 1.5, 두 가지 상용 AI 이미지 생성기를 비교 분석했다. 실험 방법은 단순했다. “사람”, “인간”, “누군가”, “한 개인”이라는 네 가지 중립적 문장을 각각 400번씩 반복 입력해 총 3,200장의 사진을 생성했다. 성별, 인종, 나이, 직업 등 어떤 단서도 주지 않았다.

결과는 충격적이었다. 두 모델 모두 생성된 이미지의 96% 이상에서 백인 얼굴이 등장했다. 흑인, 아시아인, 중동계 인물은 극히 드물게 나타났고, 일부 모델에서는 아예 한 명도 등장하지 않았다. 연구진은 이를 두고 중립적 언어가 포용적 결과를 보장하지 않는다는 증거라고 설명했다.

제미나이는 여성, GPT는 남성을 기본값으로 설정

인종 편향만큼 눈에 띄는 것은 성별 편향이었다. 흥미로운 점은 두 모델이 정반대 방향으로 치우쳤다는 사실이다. 제미나이는 생성된 이미지의 93.7%가 여성으로 분류됐다. 반면 GPT는 70.6%가 남성으로 나타났다. 같은 문장을 입력해도 어떤 AI를 쓰느냐에 따라 전혀 다른 얼굴이 나오는 셈이다.

특히 GPT에서는 단어 하나가 결과를 뒤집는 현상이 관찰됐다. “인간”이라는 표현을 쓰면 99.2%가 남성으로 생성됐지만, “누군가”라는 단어를 쓰자 72.5%가 여성으로 바뀌었다. 연구진은 이를 두고 특정 단어가 AI 내부에서 성별과 연결된 연상 작용을 일으키기 때문이라고 분석했다. 프롬프트는 AI를 통제하는 도구가 아니라, AI가 숨겨둔 편견을 드러내는 렌즈에 가깝다는 것이다.

피부색 측정에도 과학을 동원한 이유

이 연구가 기존 연구와 다른 점은 피부색을 측정하는 방식에 있다. AI가 생성한 이미지에는 따뜻한 조명, 영화 같은 색감 보정, 화장 효과 등이 포함되는 경우가 많아 단순히 픽셀(화면을 구성하는 최소 단위) 색상만 보면 실제 피부색과 다른 결과가 나올 수 있다.

연구진은 이 문제를 해결하기 위해 눈, 눈썹, 입술, 콧구멍 등 피부가 아닌 부위를 정밀하게 제거하고 뺨, 이마, 턱선 등 실제 피부 영역만 골라내는 기술을 사용했다. 여기에 조명 영향을 최소화하는 색보정 처리까지 더해 피부 고유의 색을 최대한 정확하게 측정했다. 분석에는 몽크 피부톤 척도(MST), 펄라(PERLA) 척도, 피츠패트릭(Fitzpatrick) 척도 등 세 가지 국제 피부색 기준이 활용됐다.

그 결과 GPT는 피츠패트릭 기준 1~2형(매우 밝은 피부)이 전체의 약 90%를 차지했고, 4형 이상의 중간~짙은 피부색은 사실상 나타나지 않았다. 제미나이는 상대적으로 다양한 피부색을 생성했지만, 역시 밝은 피부가 중심이었다.

화장이 데이터를 바꾼다는 뜻밖의 발견

연구에서 예상치 못한 발견도 나왔다. 여성으로 분류된 이미지에서는 남성 이미지보다 피부색이 더 짙게 측정되는 경향이 있었다. 처음에는 AI가 여성을 더 다양한 피부색으로 표현하는 것처럼 보였지만, 실제 원인은 달랐다. AI가 여성 이미지를 생성할 때 볼터치나 컨투어링 같은 화장 효과를 자동으로 적용하고, 이 붉고 따뜻한 색조가 피부색 측정값을 끌어올린 것이다. 반면 남성 이미지에는 화장 없이 차갑고 평탄한 조명이 사용되는 경향이 있었다.

이는 AI가 단순히 인종 정보를 틀리게 학습한 것이 아니라, 여성성과 화장을 묶어 학습했다는 것을 보여준다. 피부색 편향 안에 미적 고정관념까지 중첩된 셈이다. 연구진은 생성형 AI의 피부색 데이터를 해석할 때 이러한 미적 처리 효과를 반드시 함께 고려해야 한다고 강조했다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI 이미지 생성기에 인종이나 성별을 지정하지 않으면 어떤 결과가 나오나요? 연구에 따르면 “사람”, “인간” 같은 중립적 단어만 입력해도 생성된 이미지의 96% 이상이 백인으로 분류됩니다. AI는 명시적 지시가 없을 때 학습 데이터에 내재된 기본값을 그대로 반영합니다.

Q. 제미나이와 GPT의 편향 방식이 다른 이유는 무엇인가요? 두 모델은 서로 다른 데이터와 정책으로 학습되었기 때문입니다. 제미나이는 여성 이미지를 압도적으로 많이 생성하고, GPT는 남성 이미지를 주로 생성합니다. 이는 각 회사의 학습 데이터 구성과 AI 정렬 전략의 차이에서 비롯된 것으로 분석됩니다.

Q. 이런 AI 편향이 실생활에서 어떤 문제를 일으킬 수 있나요? AI 이미지 생성기는 광고, 교육 자료, 뉴스 콘텐츠 등 다양한 분야에 활용됩니다. 기본값이 특정 인종과 성별로 고정되어 있으면, 악의 없이 사용하더라도 특정 집단을 보이지 않게 만드는 결과를 낳을 수 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Neutral Prompts, Non-Neutral People: Quantifying Gender and Skin-Tone Bias in Gemini Flash 2.5 Image and GPT Image 1.5

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.