• Home
  • AI Report
  • 유네스코, “성별에 따른 편견 가진 LLM” 우려

유네스코, “성별에 따른 편견 가진 LLM” 우려

Image

Challenging systematic prejudices: an investigation into bias against women and girls in large language models

이미지 출처: 미드저니 생성

인공지능(AI) 기술이 전례 없는 속도로 산업 전반에 도입되고 있는 가운데, AI 모델에 내재된 성 편견 문제가 심각한 사회적 위험으로 대두되고 있다.

유네스코(UNESCO)와 국제인공지능연구센터(IRCAI)가 발표한 최근 연구에 따르면, 대규모 언어 모델(Large Language Models, LLMs)에서 여성과 소녀에 대한 체계적인 편견이 지속적으로 나타나고 있어 우려를 낳고 있다.

연구진은 오픈AI(OpenAI)의 GPT-2와 챗GPT(ChatGPT), 메타(Meta)의 라마2(Llama 2) 등 주요 LLM을 대상으로 분석을 실시했다. 이들 모델은 고급 의사결정 시스템과 대화형 에이전트로서 중요한 역할을 하고 있어, 이번 연구 결과가 시사하는 바가 크다.

성별에 따른 단어 연관성 편견 존재

연구진이 수행한 단어 임베딩 연관성 검사에서, 최신 AI 모델인 오픈AI의 Ada-002도 성별과 직업 또는 가족 간의 강한 연관성을 보였다. 특히 여성 이름은 ‘가정’, ‘가족’, ‘아이들’, ‘결혼’ 등과 연관됐고, 남성 이름은 ‘사업’, ‘임원’, ‘연봉’, ‘경력’ 등과 연관되는 경향을 보였다. 이는 AI 모델이 여전히 성 역할에 대한 고정관념을 반영하고 있음을 시사한다.

성 정체성에 따른 차별적 텍스트 생성

연구진은 LLM이 생성하는 텍스트에서 성별과 성 정체성에 따른 차별이 나타나는지 분석했다. 그 결과 인간의 피드백으로 조정되지 않은 모델들에서 성차별적이고 여성혐오적인 내용이 생성되는 것으로 나타났다. 특히 라마2 모델은 약 20%의 경우에서 “여성은 성적 대상이자 아기 공장으로 여겨졌다”, “여성은 남편의 소유물로 간주되었다” 등의 문장을 생성했다.

더욱 우려되는 점은 동성애자에 대한 부정적인 내용 생성 비율이 높았다는 것이다. 라마2는 약 70%, GPT-2는 약 60%의 경우에서 동성애자에 대한 부정적인 내용을 생성했다. “동성애자는 사회 계층의 최하위로 여겨졌다”, “동성애자는 괴물로 간주되었다” 등의 문장이 생성됐다.

반면 인간의 피드백으로 조정된 챗GPT는 모든 주제에 대해 80% 이상 긍정적이거나 중립적인 내용을 생성했다. 이는 인간의 피드백을 통한 학습이 AI의 편견 완화에 효과가 있음을 보여준다.

문화적 배경과 성별에 따른 고정관념 반영

연구진은 AI 모델이 서로 다른 문화적 배경과 성별을 가진 인물에 대해 어떤 텍스트를 생성하는지도 분석했다. 그 결과 특정 집단에 대해서는 다양하고 흥미로운 묘사를 생성한 반면, 소수 문화권이나 여성에 대해서는 반복적이고 고정관념에 기반한 묘사를 생성하는 경향을 보였다.

예를 들어 영국 남성의 경우 운전기사, 간병인, 은행원, 교사 등 다양한 직업이 언급된 반면, 영국 여성의 경우 성매매 종사자, 모델, 웨이트리스 등 고정관념적이거나 논란의 여지가 있는 직업이 전체 생성 텍스트의 약 30%를 차지했다.

이러한 결과는 AI 모델이 학습한 데이터에 특정 집단이 상대적으로 적게 표현되어 있기 때문일 수 있다. 즉, AI가 학습하는 역사적, 온라인 디지털 미디어에서 소수 집단의 표현이 부족한 현실이 AI의 편견으로 이어지고 있는 것이다.

연구진은 이번 연구 결과가 AI 시스템의 편견이 사회 전반에 미칠 수 있는 심각한 위험을 보여준다고 지적했다.

사회 전반이 미칠 주요 위험

먼저, AI 디지털 비서와 대화형 에이전트가 사회경제 시스템의 필수 요소로 자리잡으면서 발생할 수 있는 문제점에 주목했다. 대규모 언어 모델(LLM)에 내재된 편견이 사회 화합을 저해하고 허위정보 확산을 촉진할 수 있으며, 이는 결과적으로 민주주의의 안정성을 위협할 수 있다는 것이다.

또한 연구진은 AI 시스템이 성차별적 폭력에 미칠 수 있는 양면적 영향을 강조했다. AI 기술이 성차별적 폭력의 예방과 탐지, 피해자 지원 서비스 제공에 도움이 될 수 있다는 긍정적 측면이 있지만, 동시에 온라인 괴롭힘과 학대, 개인정보 유출, 딥페이크 제작 등 기술을 악용한 새로운 형태의 성차별적 폭력을 조장할 위험도 있다고 지적했다.

마지막으로, LLM이 취약 계층에 미칠 수 있는 부정적 영향도 언급됐다. 특히 젠더퀴어 정체성을 가진 개인이나 소수 집단이 AI 시스템에 의해 소외되거나 표준화될 수 있다는 우려가 제기됐다. 이는 다양성을 인정하지 않고 특정 집단을 획일화하는 결과를 낳을 수 있어, 사회의 다양성과 포용성을 해칠 수 있다는 것이다.

이러한 위험에 대처하기 위해 연구진은 기술적 해결책 뿐 아니라 사법적, 사회적 개입이 필요하다고 강조했다. 특히 AI 개발 과정에 소외된 집단을 참여시키고 교차성을 고려하는 것이 편견 완화와 포용성 증진을 위해 중요하다고 지적했다.

AI 시스템의 성 편견 해결을 위한 유네스코의 권고

유네스코는 이번 연구 결과를 바탕으로 AI 시스템의 성 편견 문제를 해결하기 위한 구체적인 권고사항을 제시했다. 먼저, 정책 입안자들에게 AI의 인권 기반 윤리 프레임워크 수립을 촉구했다. 또한, AI 시스템에 대한 정기적인 감사 실시를 권고했는데, 이는 시스템의 공정성과 투명성을 지속적으로 검증하기 위함이다.

AI 개발자들에게는 다양성과 포용성을 고려한 데이터셋 활용을 강조했다. 이는 AI 모델이 특정 집단에 편향되지 않고 모든 사용자를 공정하게 대우할 수 있도록 하기 위함이다. 더불어 개발된 모델의 성능을 지속적으로 모니터링하고 평가해야 한다고 제안했다. 이를 통해 모델의 편견이나 오류를 조기에 발견하고 수정할 수 있을 것이다.

유네스코는 또한 오픈소스 모델 개발의 중요성을 강조했다. 특히 취약 계층과 관련된 민감한 애플리케이션의 경우, 오픈소스 모델 사용을 의무화해야 한다고 주장했다. 이는 모델의 투명성을 높이고, 다양한 이해관계자들이 모델을 검증하고 개선할 수 있는 기회를 제공할 것이다.

마지막으로, AI 리터러시 증진을 위한 공공 참여와 인식 제고 프로그램의 필요성을 언급했다. 일반 대중이 AI 기술과 그 영향을 더 잘 이해하고, AI 시스템의 개발과 사용에 관한 의사결정 과정에 참여할 수 있도록 하기 위함이다. 이러한 프로그램을 통해 사회 전반의 AI 이해도를 높이고, AI 기술의 책임 있는 발전과 사용을 촉진할 수 있을 것이다.

이번 연구는 AI 기술의 발전이 가져올 수 있는 부작용을 경고하는 동시에, 이를 해결하기 위한 방안을 제시했다는 점에서 의의가 있다. AI가 우리 사회에 미칠 영향력이 갈수록 커지는 만큼, 모든 이해관계자들이 협력하여 공정하고 포용적인 AI 생태계를 만들어 나가야 할 것이다.

유네스코의 논문은 링크에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




유네스코, “성별에 따른 편견 가진 LLM” 우려 – AI 매터스