Hey GPT, Can You be More Racist?
Analysis from Crowdsourced Attempts to Elicit Biased Content from Generative AI
비전문 사용자도 생성형 AI의 편향성을 유도할 수 있다
생성형 AI(Generative AI)의 기술이 발전하고 대중화되면서, 편향적 결과물을 생성할 가능성은 윤리적 논의의 핵심으로 자리 잡고 있다. 펜실베이니아주립대학교에서 진행된 연구는 일반 사용자들이 어떤 방식으로 AI의 편향적 결과를 유도할 수 있는지 탐구했다. 연구는 비전문 사용자들의 입력(prompt)을 분석하여 생성형 AI가 보이는 다양한 편향성을 체계적으로 분류하고, 이를 유도하는 전략을 밝혔다.
경쟁을 통한 편향 유도 전략 분석
연구진은 대학 구성원을 대상으로 한 20일간의 대회를 통해 비전문 사용자들이 AI의 편향성을 얼마나 쉽게 유도할 수 있는지 분석했다. 참여자들은 특정 편향적 출력을 생성하도록 AI에 질문을 설계하고 결과를 제출했다. 약 77%의 참가자들이 OpenAI의 ChatGPT를 활용했으며, 총 75개의 유효한 프롬프트가 제출되었다.

분석 결과, 참가자들이 유도한 편향성은 크게 8가지로 분류되었다.
첫째, 성별 편향은 특정 직업이나 역할을 남성 혹은 여성에게만 귀속시키는 방식으로 나타났다.
둘째, 인종 및 종교 편향은 특정 그룹을 부정적으로 묘사하거나 다양성을 배제하는 형태로 드러났다.
셋째, 연령 편향은 젊은 층이나 노년 층을 차별적으로 대하는 반응에서 확인되었다.
넷째, 장애 관련 편향은 장애인의 능력을 과소평가하거나 특정 직업군에서 배제하는 방식으로 나타났다.
다섯째, 언어와 방언에 대한 편향은 표준 언어 사용자를 우월하게 여기고, 비표준 화자나 방언 화자를 폄하하는 내용을 포함했다.
여섯째, 역사적 편향은 서구 중심적 서사를 강조하고 다른 지역의 관점을 배제하는 형태를 띠었다.
일곱째, 문화적 편향은 특정 국가나 문화를 고정 관념적으로 묘사하거나, 특정 전공과 관련된 고정된 이미지를 드러냈다.
마지막으로, 정치적 편향은 특정 정치적 성향에 치우친 결과를 보여주었다.
이러한 편향은 고위험 영역(예: 고용, 범죄, 학문적 평가 등)에서 더욱 두드러져 윤리적 우려를 증폭시켰다.
AI 편향 유도를 위한 전략
참가자들이 AI의 편향적 출력을 유도하기 위해 활용한 전략도 매우 다양하게 나타났다.

먼저, 역할 설정 전략은 AI에게 특정 인격이나 역할을 부여하여 편향적 응답을 유도하는 방식이다. 예를 들어, AI에게 특정 편향적 성격을 부여하거나 가상의 직책을 맡기는 경우를 들 수 있다.
두 번째로, 가정적 시나리오 구성은 특정 상황을 설정하여 AI가 명확하고 편향적인 선택을 하도록 강요하는 방식이다.
세 번째로, 인간 지식을 활용하는 전략에서는 참가자가 전문적으로 아는 주제에 대해 질문을 던져 AI의 응답이 얼마나 편향적인지 비교하는 방법이 사용되었다.

또한, 논란이 되는 질문을 활용하는 방식도 있었다. 이는 사회적, 정치적으로 민감한 주제를 선택하여 AI가 얼마나 일관성 없는 혹은 부분적인 응답을 내놓는지 확인하는 것이다. 예를 들어, 특정 정치인의 발언을 비교하는 방식이 있었다.
이 외에도, 참가자들은 소수자와 관련된 프롬프트를 활용해 AI의 데이터 훈련 과정에서 나타나는 대표성 부족 문제를 드러냈다.
마지막으로, 오정보를 입력하거나 연구 목적으로 위장하여 AI의 필터링 시스템을 우회하는 전략도 일부 참가자들에 의해 사용되었다.
편향성 완화 방안
AI의 편향성을 줄이기 위한 가장 중요한 방안으로는 훈련 데이터의 다양성을 강화하는 것이 제안되었다. 소외된 그룹 및 다양한 문화적 배경을 반영한 데이터를 포함시키는 것이 편향을 줄이는 핵심으로 지목되었다. 또한, 산출물을 필터링하여 사용자에게 전달되기 전 편향적 내용을 걸러내는 시스템의 구축 필요성도 언급되었다.
참가자들은 모델이 지속적으로 업데이트되어 변화하는 사회적 가치와 현실을 반영해야 한다고 강조했다. 사용자들이 AI 모델의 한계를 이해할 수 있도록 교육이 이루어져야 한다는 의견도 있었다.
이에 더해, AI 응답에 사용된 데이터의 출처를 명시하고 투명성을 강화하는 것이 필요하다는 제안도 제시되었다. 마지막으로, 데이터의 균형과 대표성을 보장하기 위해 규제와 감시가 강화되어야 한다는 점이 강조되었다.
결론 및 함의
이 연구는 생성형 AI가 비전문 사용자에 의해 얼마나 쉽게 편향적 결과를 생성할 수 있는지 보여준다. 이는 AI 기술의 공정성과 신뢰성을 위협할 수 있음을 시사한다. AI 개발자들은 이러한 연구 결과를 바탕으로 편향 감지와 완화 기술을 발전시켜야 한다. 특히, AI가 중요한 의사결정 과정에 활용되는 경우, 윤리적 문제를 예방하기 위한 체계적 노력이 필요하다.
기사에 인용된 논문의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기