AI가 장애 혐오 표현을 찾아내고 고쳐준다면? 100명의 장애인이 평가한 결과

“휠체어에 갇힌(wheelchair-bound)”이라는 표현이 왜 문제일까? 카네기멜론대학교와 컬럼비아대학교, 마이크로소프트 연구팀이 공동으로 진행한 연구는 일상 속 미묘한 장애 혐오 표현을 AI가 얼마나 정확하게 찾아내고 설명하며 대안을 제시할 수 있는지 조사했다. 연구진은 챗GPT의 GPT-4o 모델과 실제 장애인 커뮤니티 구성원들의 평가를 비교한 결과, 놀라운 발견을 했다. AI의 설명이 인간 전문가만큼 정확할 뿐 아니라, 일부 측면에서는 오히려 더 선호된다는 것이다.

“고통받는 장애인”이라는 표현, 무엇이 문제인가

장애 혐오 표현(ableist language)은 인종차별이나 성차별과 달리 일상에서 쉽게 간과된다. 연구진은 이를 “미묘한 장애 혐오(nuanced ableism)”라고 정의했다. 욕설이나 명백한 모욕이 아니라, 장애를 불쌍하거나 제한적인 것으로 묘사하는 표현들이다. 예를 들어 “장애로 고통받는(suffers from)”이라는 표현은 장애를 본질적으로 비참한 것으로 전제한다. “휠체어에 갇힌”이라는 말 역시 휠체어를 감옥처럼 묘사하지만, 실제로 많은 장애인에게 휠체어는 자유와 이동성을 제공하는 도구다.

논문의 서론(Introduction)에 따르면, 이런 표현들은 언론 보도, 학술 논문, 직장 내 커뮤니케이션에서 광범위하게 사용되지만 대부분의 사람들은 문제를 인식하지 못한다. 일반적인 혐오 표현 필터링 시스템도 이런 미묘한 편견은 감지하지 못한다. 연구진은 AI가 이 공백을 메울 수 있는지 탐구했다.

100명 이상의 장애인이 AI와 인간 평가를 비교한 결과

연구는 두 단계로 진행됐다. 1단계에서는 장애인 커뮤니티 구성원들이 짧은 글에서 장애 혐오 표현을 찾아내고, 왜 문제인지 설명하며, 대안을 제시했다. 연구진은 이 데이터를 모아 “인간 크라우드소싱 평가”를 만들었다. 2단계에서는 100명 이상의 다른 장애인 참가자들에게 같은 글에 대한 AI 평가와 인간 평가를 보여주고 어느 쪽을 선호하는지 물었다.

결과는 흥미로웠다. 참가자들은 AI와 인간 평가 모두에 동등한 수준으로 동의했다. 하지만 선호도에서는 AI가 유의미하게 앞섰다. 참가자들은 AI의 설명이 “일관된 서사 구조”를 가지고 있으며 “접근하기 쉬운 스타일”로 작성됐다고 평가했다. 한 참가자는 “AI 설명이 더 명확하고 체계적이었다. 마치 잘 정리된 교과서를 읽는 느낌”이라고 말했다.

그러나 인간 평가도 독특한 강점을 보였다. 참가자들은 인간 평가가 “감정적 깊이”와 “문화적 맥락”을 더 잘 담아낸다고 평가했다. 한 참가자는 “인간 평가는 실제 경험에서 우러나온 느낌이 있다. AI는 정확하지만 때로 차갑게 느껴진다”고 언급했다.

AI가 잘하는 것과 못하는 것

연구진이 수집한 참가자 피드백에 따르면, AI 평가의 주요 강점은 명확성과 일관성이었다. AI는 문제가 되는 표현을 정확히 지적하고, 왜 문제인지 단계적으로 설명하며, 구체적인 대안을 제시했다. 예를 들어 “정상인(normal people)”이라는 표현에 대해 AI는 “이 표현은 장애가 없는 것을 기준으로 설정하여 장애인을 비정상으로 암시한다. ‘비장애인(non-disabled people)’ 또는 ‘장애가 없는 사람들(people without disabilities)’로 바꾸는 것이 적절하다”고 설명했다.

반면 AI의 약점도 명확했다. 일부 참가자는 AI가 “지나치게 교과서적”이며 “실제 장애인의 목소리가 느껴지지 않는다”고 지적했다. 또한 AI는 때때로 맥락을 고려하지 못하고 기계적으로 판단하는 경향을 보였다. 예를 들어 장애인 당사자가 자신의 경험을 설명하며 사용한 표현까지 문제 삼는 경우가 있었다. 한 참가자는 “AI는 규칙을 너무 엄격하게 적용한다. 때로는 문맥상 괜찮은 표현도 지적한다”고 말했다.

인간 평가는 개인적 경험과 감정을 더 잘 전달했지만, 일관성이 부족했다. 같은 표현에 대해서도 평가자마다 다른 설명을 제시하는 경우가 있었고, 때로는 설명이 너무 간략하거나 주관적이었다.

포용적 글쓰기 도구, 어떻게 만들어야 할까

연구진은 이 결과를 바탕으로 AI 기반 포용적 글쓰기 도구 개발자들을 위한 제안을 제시했다. 첫째, AI는 교육 도구로서의 역할에 집중해야 한다. 단순히 “이 표현은 틀렸다”고 지적하는 대신, 왜 문제인지, 어떤 역사적·문화적 맥락이 있는지 설명해야 한다. 둘째, AI는 장애인 커뮤니티의 전문성을 대체하는 것이 아니라 보완하는 도구여야 한다. 연구진은 “AI는 대규모 일상 커뮤니케이션에서 첫 번째 검토자 역할을 할 수 있지만, 최종 판단은 여전히 인간의 몫”이라고 강조했다.

셋째, 맥락 인식 능력을 개선해야 한다. 같은 표현이라도 누가, 어떤 상황에서, 어떤 의도로 사용하는지에 따라 의미가 달라진다. 장애인 당사자가 자신의 경험을 설명하는 것과 외부인이 장애를 묘사하는 것은 다르다. AI는 이런 차이를 구분할 수 있어야 한다.

넷째, 투명성과 설명 가능성이 중요하다. 사용자는 AI가 왜 특정 표현을 문제 삼는지 이해할 수 있어야 하며, 동의하지 않을 경우 피드백을 제공할 수 있어야 한다. 연구진은 “AI 시스템은 절대적 권위가 아니라 대화의 출발점이 되어야 한다”고 말했다.

이 연구는 실용적 응용 가능성도 높다. 언론사의 기사 작성 도구, 기업의 내부 문서 검토 시스템, 교육 기관의 글쓰기 지원 프로그램 등에 적용될 수 있다. 예를 들어 기자가 장애 관련 기사를 작성할 때 실시간으로 문제가 될 수 있는 표현을 지적하고 대안을 제시하는 도구를 상상해볼 수 있다. 이는 장애인 커뮤니티가 매번 문제를 지적해야 하는 부담을 줄이고, 비장애인이 스스로 배울 수 있는 기회를 제공한다.

기술이 만드는 포용의 미래, 그리고 한계

이 연구는 AI가 문화적으로 민감한 언어 문제를 다룰 수 있는 가능성을 보여주지만, 동시에 한계도 분명히 한다. AI는 데이터에서 학습하기 때문에, 훈련 데이터에 편향이 있으면 그 편향을 재생산할 수 있다. 연구진은 “AI 시스템이 장애인 커뮤니티의 다양한 목소리를 반영하려면, 데이터 수집 단계부터 장애인이 참여해야 한다”고 강조했다.

또한 AI는 언어의 변화를 따라잡기 어렵다. 장애인 커뮤니티 내에서도 선호하는 용어가 시간에 따라, 지역에 따라, 개인에 따라 다르다. 어떤 사람은 “장애인(disabled person)”을 선호하고, 다른 사람은 “장애를 가진 사람(person with a disability)”을 선호한다. AI는 이런 다양성을 존중하면서도 명확한 지침을 제공해야 하는 어려운 과제에 직면한다.

연구진은 이 연구가 “AI가 포용적 커뮤니케이션을 지원하는 도구로 발전할 수 있는 가능성과 동시에, 장애인 커뮤니티의 지속적인 참여와 피드백이 필수적”이라는 점을 보여준다고 결론지었다. 기술은 도구일 뿐이며, 그 도구를 어떻게 설계하고 사용하는지는 결국 사람의 선택이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 장애 혐오 표현이란 정확히 무엇인가요?

A. 장애 혐오 표현은 장애인을 불쌍하거나 열등하게 묘사하는 언어를 말한다. “고통받는 장애인”, “휠체어에 갇힌”, “정상인” 같은 표현이 대표적이다. 욕설이 아니어도 장애를 부정적으로 전제하는 표현은 모두 해당된다.

Q. AI가 인간보다 장애 혐오 표현을 더 잘 찾아낼 수 있나요?

A. 이번 연구에서 AI는 인간 전문가와 비슷한 수준으로 정확했고, 설명의 명확성과 일관성에서는 오히려 더 선호됐다. 하지만 감정적 깊이와 문화적 맥락 이해에서는 인간이 여전히 우위를 보였다. AI는 보조 도구로 활용하는 것이 적절하다.

Q. 이런 기술이 실제로 어디에 사용될 수 있나요?

A. 언론사의 기사 검토 시스템, 기업의 문서 작성 도구, 교육 기관의 글쓰기 지원 프로그램 등에 적용될 수 있다. 일상적인 이메일이나 소셜미디어 게시물 작성 시에도 실시간으로 포용적 표현을 제안하는 도구로 발전할 가능성이 있다.

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.

논문명: Identifying, Explaining, and Correcting Ableist Language with AI

이미지 출처: AI 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.