• Home
  • AI Report
  • AI 채팅봇의 숨겨진 편향과 다양성 문제

AI 채팅봇의 숨겨진 편향과 다양성 문제

Image

출처: 미드저니 생성 이미지

최근 ChatGPT와 같은 AI 채팅봇이 폭발적인 인기를 얻고 있다. 하지만 이런 AI 모델들이 전 세계 사용자들에게 공평하게 서비스를 제공하고 있을까? 스탠포드 대학교 연구진의 최근 연구에 따르면 그렇지 않을 수 있다.

연구진은 AI 모델을 ‘정렬’하는 과정에서 의도치 않게 특정 지역이나 문화에 편향된 결과가 나타날 수 있다는 것을 발견했다. ‘정렬’이란 AI 모델이 사람의 지시를 잘 따르고 유용한 답변을 하도록 훈련시키는 과정을 말한다.

연구를 통한 주요 발견 사항은 다음과 같다.

  1. 영어 방언 간 격차 심화:  
  • 정렬 과정 전에는 미국식, 인도식, 나이지리아식 영어 간 성능 차이가 약 1% 정도였다. 
  • 정렬 후에는 이 차이가 최대 17.1%까지 벌어졌다.
  • 특히 미국식 영어에 대한 성능이 가장 크게 향상되었다.
  • 예를 들어, 한 모델의 경우 미국식 영어 정확도는 29.3% 증가한 반면, 인도식은 15.2%, 나이지리아식은 20.3% 증가에 그쳤다. 
  1. 다국어 능력의 복잡한 양상:  
  • 대부분의 모델에서 여러 언어에 대한 성능이 향상되었지만, 이는 훈련 데이터에 크게 의존했다.
  • 예를 들어, 한 모델(Tulu)의 훈련 데이터 중 13.1%가 비영어 데이터였는데, 이로 인해 9개 테스트 언어 중 6개 언어에서 성능이 향상되었다.
  • 반면, 거의 100% 영어로만 구성된 데이터로 훈련된 모델들은 다른 언어에 대한 성능이 오히려 저하되는 경우도 있었다. 
  • 이는 AI 모델의 다국어 능력 향상을 위해서는 의도적으로 다양한 언어 데이터를 포함시켜야 함을 시사한다.
  1. 의견 편향과 문화적 선호도:  
  • 정렬된 모델들은 전반적으로 서구, 특히 미국의 의견과 더 일치하는 경향을 보였다.
  • 연구진이 개발한 국가 선호도 평가 데이터셋에서, AI 모델은 미국을 다른 국가들보다 평균적으로 더 긍정적으로 평가했다.
  • 특히 중동과 아프리카 국가들에 대해서는 상대적으로 낮은 선호도를 보였다.
  • 흥미롭게도, 이러한 편향은 보상 모델(reward model)에서 강하게 나타났지만, 실제 언어 모델에는 완전히 반영되지 않는 경우도 있었다.
  1. 정렬 과정의 복잡성:  
  • 연구는 정렬 과정이 단순히 모델의 성능을 향상시키는 것이 아니라, 의도치 않게 특정 문화나 언어에 대한 편향을 강화할 수 있음을 보여준다.
  • 이는 AI 모델의 공정성을 평가할 때 최종 모델뿐만 아니라 전체 개발 과정, 특히 사용된 데이터의 구성을 면밀히 살펴봐야 함을 의미한다.

이러한 발견은 AI 개발자들에게 중요한 시사점을 제공한다. 전 세계적으로 사용될 AI 모델을 개발할 때는 다양한 언어, 문화, 관점을 균형 있게 포함시켜야 한다. 또한, 정렬 과정에서 발생할 수 있는 의도치 않은 편향을 지속적으로 모니터링하고 수정해 나가는 것이 필요하다.

AI가 우리 일상에 더 깊이 스며들수록, 이러한 기술이 모든 사용자에게 공평하게 서비스를 제공할 수 있도록 하는 것이 중요하다. 이 연구는 AI의 공정성과 포용성 향상을 위한 중요한 첫걸음이 될 것이며, 앞으로 더 많은 연구와 노력이 필요함을 보여준다.

자세한 내용은 Unintended Impacts of LLM Alignment on Global Representation 에서 확인할 수 있다. 

위 기사는 Claude 3.5 Sonnet을 활용해 작성되었습니다. 




AI 채팅봇의 숨겨진 편향과 다양성 문제 – AI 매터스