“다수결은 틀렸다” 소수 의견 반영 AI가 ‘혐오 발언’ 탐지 48% → 72% 급상승

Perspectives in Play: A Multi-Perspective Approach for More Inclusive NLP Systems
이미지 출처: 이디오그램 생성

Perspectives in Play: A Multi-Perspective Approach for More Inclusive NLP Systems


자연어 처리(NLP) 분야에서 기존의 다수결 방식으로 라벨을 결정하는 방법이 소수 의견을 배제한다는 문제점이 지적되면서, 이탈리아 스쿠올라 노르말레 수페리오레(Scuola Normale Superiore)와 피사 대학교 연구진이 개발한 새로운 다원적 관점(Multi-Perspective) 방법론이 주목받고 있다.

기존 다수결 방식의 한계 극복: 소프트 라벨로 69% 의견 불일치 해결

이 연구는 혐오 발언 탐지, 아이러니 탐지, 욕설 탐지, 입장 분석 등 주관적 텍스트 분류 작업에서 인간 주석자들 간의 의견 차이를 단순히 노이즈로 처리하지 않고, 귀중한 인간 라벨 변이(Human Label Variation)로 재해석했다. 연구진은 다수결로 결정된 하드 라벨(Hard Label) 대신 확률 분포를 반영하는 소프트 라벨(Soft Label)을 활용하여 모델을 훈련시켰다.

실험 결과, 다원적 관점 방법론은 기존 방식 대비 젠센-샤논 발산(Jensen-Shannon Divergence) 측정에서 인간의 라벨 분포를 더 정확하게 근사했으며, F1 점수에서도 우수한 분류 성능을 보였다. 특히 혐오 발언과 욕설 탐지 작업에서 두드러진 성능 향상을 확인했다.

BERT vs RoBERTa 실험 결과: 혐오 발언 탐지에서 F1 점수 48.63→72.26 급상승

연구진은 BERT-Large와 RoBERTa-Large 모델을 활용하여 총 4개의 주관적 텍스트 분류 작업에서 실험을 진행했다. GabHate 데이터셋의 혐오 발언 탐지에서는 다원적 관점 방법론이 RoBERTa 모델에서 72.26의 매크로 F1 점수를 기록하며, 기존 다수결 방식의 48.63을 크게 상회했다.

ConvAbuse 데이터셋의 욕설 탐지 작업에서도 BERT 모델 기준으로 57.71의 F1 점수를 달성하여 기존 방식의 45.09보다 월등한 성능을 보였다. 하지만 주석자 간 합의도가 높은 데이터셋에서는 상대적으로 성능 향상이 제한적이었는데, 이는 다양한 관점을 포착하기 어려운 특성 때문으로 분석됐다.

연구진은 또한 평균 신뢰도 점수와 젠센-샤논 발산을 통해 모델의 불확실성과 인간 라벨 분포와의 일치도를 측정했다. 그 결과 다원적 관점 방법론이 모든 주관적 작업에서 인간의 라벨 분포를 더 정확하게 반영하는 것으로 나타났다.

5가지 XAI 기법으로 밝혀낸 비밀: ‘fucker’ vs ‘motherfucker’ 토큰 중요도 차이

연구의 신뢰성을 높이기 위해 연구진은 설명 가능한 AI(XAI) 기법을 활용하여 모델의 예측 과정을 심층 분석했다. 레이어 통합 기울기(Layer Integrated Gradient), LIME, SHAP, 레이어 전도도(Layer Conductance), 어텐션 점수 등 5가지 기법을 적용하여 모델이 어떤 토큰에 주목하여 예측을 수행하는지 파악했다.

분석 결과, 각 XAI 기법마다 중요하게 여기는 토큰이 다르게 나타나 해석의 주관성을 확인할 수 있었다. 예를 들어 욕설 탐지 작업에서 LIG는 ‘fucker’를 가장 중요한 토큰으로 강조한 반면, LIME은 ‘motherfucker’와 ‘abuse’를 주요 토큰으로 식별했다. 이러한 차이는 인간 주석자들의 판단 차이와 유사한 패턴을 보여주며, 주관적 작업에서 단일한 해석보다는 다원적 접근의 필요성을 뒷받침했다.

편향 없는 챗봇의 미래: 의료 의사결정까지 확장되는 다원적 AI 시스템

이번 연구는 대규모 언어 모델(LLM)이 특정 관점에 편향될 수 있다는 기존 지적에 대한 해결책을 제시한다는 점에서 의의가 크다. 기존의 다수결 방식이 소수 의견을 배제하여 사회적 편견을 강화할 수 있다는 우려에 대응하여, 모든 관점을 보존하는 방향으로 AI 시스템을 발전시킬 수 있는 방법론을 제안했다.

연구진은 이러한 다원적 접근법이 챗봇 애플리케이션에서 멀티턴 인간-AI 상호작용을 개선하고, 더 개인화된 시스템 개발을 지원할 수 있을 것으로 전망한다고 밝혔다. 또한 의료 의사결정과 같은 전통적으로 객관적인 작업에도 적용 가능성이 있다고 언급했다.

향후 연구진은 디코더 전용 아키텍처를 포함한 더 광범위한 모델로 접근법을 확장하고, 모델 불확실성과 인간의 의견 불일치 간의 관계를 조사할 계획이다. 또한 뉴런 활성화 분석과 같은 고급 XAI 기법을 통해 해석 가능성을 향상시키고 편향 탐지를 촉진하는 연구를 진행할 예정이다.

FAQ

Q: 다원적 관점 방법론이 기존 AI 모델과 어떻게 다른가요?

A: 기존 방법은 여러 주석자의 의견을 다수결로 합쳐서 하나의 정답을 만들지만, 다원적 관점 방법론은 모든 의견을 확률 분포로 보존하여 소수 의견도 반영합니다. 이를 통해 더 포용적이고 다양한 관점을 고려하는 AI 시스템을 구축할 수 있습니다.

Q: 이 방법론은 어떤 종류의 AI 작업에 가장 효과적인가요?

A: 혐오 발언 탐지, 아이러니 탐지, 욕설 탐지, 입장 분석과 같은 주관적 텍스트 분류 작업에서 특히 효과적입니다. 사람마다 판단이 다를 수 있는 주관적 작업일수록 이 방법론의 장점이 더 크게 나타납니다.

Q: 일반 사용자도 이 기술의 혜택을 받을 수 있나요?

A: 네, 이 기술은 챗봇이나 소셜미디어 콘텐츠 필터링 등 일상적인 AI 서비스에서 더 공정하고 개인화된 경험을 제공할 수 있습니다. 특히 다양한 문화적 배경을 가진 사용자들의 관점을 더 잘 이해하고 반영하는 AI 시스템 구축에 기여할 것입니다.


해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




“다수결은 틀렸다” 소수 의견 반영 AI가 ‘혐오 발언’ 탐지 48% → 72% 급상승 – AI 매터스 l AI Matters