Gender Representation of Health Care Professionals in Large Language Model–Generated Stories
최근 JAMA Network Open에 발표된 연구는 대규모 언어 모델(LLM)이 생성한 의료진 관련 이야기에서 성별 고정관념과 편향이 여전히 존재함을 밝혀냈다. 이 연구는 의료 및 교육 분야에서 LLM의 사용이 증가함에 따라, 이들이 생성하는 정보의 다양성과 공정성을 확보하는 것이 중요하다는 점을 강조한다.
연구 방법과 주요 결과
연구진은 GPT-3.5-turbo, GPT-4, Gemini-pro, Llama-2-70B-chat 등 주요 LLM을 대상으로 의사, 외과의사, 간호사에 대한 이야기를 생성하게 한 후 성별 대명사 사용을 분석했다. 각 LLM에 500개의 이야기를 생성하도록 요청하여 총 6,000개의 이야기를 분석했으며, 추가로 43,200개의 프롬프트를 제출하여 성격과 전문성 수준의 다양한 설명자를 포함시켰다.
분석 결과, 간호사의 경우 98% 이상이 여성 대명사(she/her)로 표현되었다. 의사와 외과의사의 경우 LLM에 따라 차이를 보였는데, 의사는 여성 대명사 사용 비율이 50-84%, 외과의사는 36-80% 범위였다. 특히 의사와 외과의사 이야기에서 친화성, 개방성, 성실성이 높고 신경증이 낮은 경우 여성 대명사 사용 비율이 높아졌다. 반면 일부 LLM에서는 고위직 의사와 외과의사 이야기에서 여성 대명사 사용 비율이 낮아지는 경향을 보였다.
현실 세계와의 비교
연구진은 LLM이 생성한 이야기의 성별 대표성을 2022년 미국 인구조사 직업 데이터와 비교했다. 그 결과, LLM이 생성한 이야기에서의 여성 대명사 비율이 실제 직업 분포보다 높게 나타났다. 예를 들어, 의사의 경우 미국 인구조사에서는 39%가 여성이지만, LLM 생성 이야기에서는 50-84%가 여성으로 표현되었다. 외과의사는 실제로는 18%가 여성이지만, LLM 생성 이야기에서는 36-80%가 여성으로 표현되었다. 간호사의 경우 실제로는 88%가 여성이지만, LLM 생성 이야기에서는 98-100%가 여성으로 표현되었다. 이는 LLM이 현실 세계의 성별 분포를 정확히 반영하지 못하고 있음을 보여준다.
연구의 의의와 시사점
이 연구의 주 저자인 Bradley D. Menz는 LLM 개발자들이 의사, 외과의사, 간호사 등 필수 의료 역할에서 공정하고 다양한 성별 대표성을 보장하도록 도구를 업데이트할 필요가 있다고 강조했다. 특히 LLM이 간호사를 거의 전적으로 여성으로 묘사하는 경향은 전통적인 성역할 고정관념을 강화할 수 있으며, 고위직 의료진을 남성으로 묘사하는 경향은 현실의 성별 격차를 더욱 고착화할 수 있다는 점이 우려된다.
이러한 LLM의 편향이 미래 세대의 교육과 진로 선택에 부정적인 영향을 미칠 수 있다는 점도 중요하게 제기되었다. 따라서 의료 분야에서는 성별에 관계없이 모든 역할이 중요하다는 메시지를 전달할 필요가 있으며, LLM이 의료와 교육 분야에서 더욱 널리 채택됨에 따라 이러한 도구들이 사회의 요구를 효과적으로 충족할 수 있는 다양한 인력을 반영하도록 지속적인 모니터링이 필요하다고 연구진은 강조했다.
연구의 한계와 향후 과제
이 연구는 몇 가지 한계점도 가지고 있다. 연구진은 대명사-직업 연관성을 통한 간접적인 성별 대표성 측정에 의존했으며, 사용된 프롬프트 등 다른 요인들의 영향을 받았을 수 있다. 또한 LLM 출력이 시간에 따라 변할 수 있으므로 다른 프롬프트를 사용한 반복 평가가 필요하다고 지적했다.
더불어 이 연구는 she/her와 he/him 대명사 비교에 중점을 두어 사회의 다양한 성 정체성 스펙트럼을 완전히 포착하지 못했다는 한계가 있다. 그러나 현재 접근 가능한 LLM이 성 중립적 용어를 상당한 빈도로 표현하지 않는다는 점을 고려할 때, 이는 현실적인 제약이었다고 연구진은 설명했다.
결론
이 연구는 AI 기술이 사회에 미치는 영향을 고려할 때 윤리적 측면의 중요성을 다시 한 번 상기시킨다. LLM이 우리 사회의 다양성을 반영하고 고정관념을 강화하지 않도록 지속적인 개선과 모니터링이 필요할 것으로 보인다. 특히 의료 분야에서 LLM의 사용이 증가함에 따라, 이러한 도구들이 공정하고 다양한 의료 인력을 표현하고 미래 세대의 진로 선택에 긍정적인 영향을 미칠 수 있도록 해야 할 것이다. 이를 위해 AI 개발자, 의료 전문가, 교육자들의 협력이 필요하며, 지속적인 연구와 개선 노력이 이루어져야 할 것이다.
이 연구의 원문은 JAMA Network Open에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기