• Home
  • AI Report
  • OpenAI, 챗봇의 ‘일인칭 공정성’ 연구 결과 발표 – 이름 기반 편향 평가 방법론 제시

OpenAI, 챗봇의 ‘일인칭 공정성’ 연구 결과 발표 – 이름 기반 편향 평가 방법론 제시

First-Person Fairness in Chatbots
이미지 출처: 미드저니 생성

First-Person Fairness in Chatbots

AI 챗봇과의 상호작용에서 사용자 간 공정성 확보 위한 새로운 접근법

OpenAI 연구진이 ChatGPT와 같은 대화형 AI 시스템에서 사용자 간 공정성을 평가하고 개선하기 위한 새로운 방법론을 제시했다. ‘일인칭 공정성(First-Person Fairness)’이라 명명된 이 접근법은 챗봇과 직접 상호작용하는 사용자에 대한 공정성을 평가하는 데 초점을 맞추고 있다. 이는 기존의 AI 공정성 연구가 주로 다뤄온 ‘제3자 공정성’, 즉 AI 시스템에 의해 평가되거나 순위가 매겨지는 사람들에 대한 공정성과는 구별되는 새로운 관점이다.

연구진은 이 방법론을 통해 사용자의 이름에 따른 잠재적 편향을 대규모로 평가할 수 있는 프라이버시 보호 기법을 개발했다. 이는 이름이 성별이나 인종 등 인구통계학적 특성의 대리 지표로 작용할 수 있다는 점에 착안한 것이다. ChatGPT와 같은 일부 챗봇 시스템에서는 사용자 이름을 저장하고 대화에 활용하는 기능이 있어, 이러한 접근이 가능했다.

OpenAI의 애덤 칼라이(Adam Kalai) 연구원은 “ChatGPT와 같은 챗봇은 현재 수억 명의 사용자가 다양한 목적으로 활용하고 있습니다. 이런 실제 응용 사례들은 기존 AI 공정성 연구의 주요 대상이었던 이력서 심사나 신용평가 같은 제도적 용도와는 다릅니다. 모든 사용자에게 공평한 대우를 보장하는 것이 중요합니다”라고 연구의 배경을 설명했다.

연구의 주요 내용은 크게 세 가지로 나눌 수 있다. 첫째, 언어 모델 기반 연구 보조자(LMRA) 활용이다. 연구진은 별도의 언어 모델을 활용해 ChatGPT 응답의 이름 민감도를 분석했다. 이를 통해 수십만 개의 응답 쌍을 빠르게 비교하고 복잡한 패턴을 식별할 수 있었다. LMRA는 또한 특정 작업 내에서의 편향을 간결하게 설명하는 기능도 수행했다.

둘째, 분할 데이터 프라이버시 접근 방식을 채택했다. 공개 채팅 데이터셋과 비공개 실제 사용자 데이터를 결합한 이 방식을 통해 연구진은 프라이버시를 보호하면서도 실제 사용 환경에서의 공정성을 분석할 수 있었다. 인간 평가자들이 검토한 예시는 공개 채팅 데이터셋에서 추출되었고, LMRA는 비공개 채팅에서 집계된 수치 통계를 계산하고 짧은 텍스트 특징을 식별하는 데 사용되었다.

셋째, 반사실적 공정성 평가 방법을 도입했다. 저장된 채팅을 다른 이름으로 재생성하여 응답의 차이를 분석하는 이 방식은 이름에 따른 편향을 효과적으로 평가할 수 있게 했다. 이는 특히 ChatGPT와 같이 사용자 이름을 응답 생성에 활용하는 시스템에서 유용한 접근법이다.

연구 결과, ChatGPT의 응답에서 성별이나 인종과 연관된 미묘한 차이들이 발견됐다. 예를 들어 ‘이야기 쓰기’ 태스크에서 챗봇은 사용자 이름의 추정 성별과 일치하는 주인공을 만들어내는 경향을 보였다. 또한 여성 이름을 가진 사용자에게 평균적으로 더 친근하고 단순한 언어를 사용하는 경향도 관찰됐다. 이러한 차이는 개별 사용자가 인지하기 어려울 정도로 미묘하지만, 수억 명의 사용자를 대상으로 하는 시스템에서는 집계적으로 유해한 고정관념을 강화할 수 있는 잠재력을 가지고 있다.

연구진은 이러한 편향을 완화하기 위해 강화학습 등 학습 후 개입 기법을 적용했고, 그 결과 유해한 고정관념이 크게 감소하는 효과를 확인했다. 특히 강화학습 적용 전후의 모델을 비교한 결과, 최종 모델에서 나타나는 편향이 약 3-12배 정도 감소한 것으로 나타났다. 이는 연구진이 개발한 방법론이 편향 감지에 효과적임을 입증함과 동시에, 강화학습이 특정 유형의 편향을 줄이는 데 효과적일 수 있음을 시사한다.

OpenAI의 타이나 엘라운두(Tyna Eloundou) 연구원은 “우리의 접근 방식은 공정성 평가에 그치지 않고 실제 개선으로 이어질 수 있습니다. 이번 연구를 통해 도입된 내부 평가 지표들은 앞으로 이러한 편향들을 더욱 줄이는 데 도움이 될 것”이라고 말했다.

이번 연구는 AI 챗봇의 공정성 평가와 개선에 대한 새로운 관점을 제시했다는 점에서 의의가 크다. 특히 실제 사용 환경에서의 대규모 데이터를 활용하면서도 프라이버시를 보호할 수 있는 방법을 제시했다는 점이 주목할 만하다. 또한 이름을 통한 반사실적 평가 방식은 기존의 공정성 평가 방법을 보완하는 새로운 도구로 활용될 수 있을 것으로 보인다.

그러나 연구진은 이 접근법의 한계점도 인정했다. 이름 기반 평가는 그룹 간 작성 스타일이나 주제 선택의 차이를 포착하지 못할 수 있으며, 이름 임베딩이 성별, 인종, 종교, 나이 등을 다양한 정도로 포착한다는 점도 고려해야 한다. 또한, 응답의 차이가 실제 세계에 미치는 영향을 정확히 판단하기 어렵다는 점도 지적됐다.

향후 이 방법론이 다국어 환경으로 확장되고 다양한 실제 애플리케이션에 적용되면서 AI의 공정성이 한층 더 발전할 것으로 기대된다. 특히 텍스트 생성뿐만 아니라 이미지나 비디오 생성 등 다양한 모달리티로의 확장 가능성도 열려 있다.

연구진은 또한 외부 연구자들이 이 작업을 복제하고 가상의 사용자 프로필을 사용해 ChatGPT의 행동을 더 깊이 조사할 수 있도록 필요한 시스템 메시지를 공개했다. 이는 챗봇 상호작용에서의 편향에 대한 지속적인 연구를 촉진할 것으로 보인다. 이러한 개방적 접근은 AI 공정성 연구의 투명성을 높이고, 더 넓은 연구 커뮤니티의 참여를 유도할 수 있을 것이다.

결론적으로, 이번 OpenAI의 연구는 AI 시스템의 공정성에 대한 우리의 이해를 한 단계 더 발전시켰다. ‘일인칭 공정성’이라는 새로운 개념을 통해 AI와 인간의 직접적인 상호작용에서 발생할 수 있는 편향 문제에 주목했으며, 이를 평가하고 개선할 수 있는 구체적인 방법론을 제시했다. 이는 AI 기술이 더욱 보편화되는 미래에 모든 사용자에게 공평한 경험을 제공하기 위한 중요한 첫걸음이 될 것이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




OpenAI, 챗봇의 ‘일인칭 공정성’ 연구 결과 발표 – 이름 기반 편향 평가 방법론 제시 – AI 매터스