위키피디아 소외 언어판들이 기계번역에 의존하면서 오류 문서가 대량 양산돼 언어 보존에 심각한 위협이 되고 있다. 그린란드어 위키피디아는 올해 초 이런 문제로 결국 폐쇄가 결정됐다. MIT 테크놀로지 리뷰가 25일(현지 시각) 보도한 조사 결과에 따르면, 4개 아프리카 언어 위키피디아 문서 중 40-60%가 검수받지 않은 기계번역으로 작성된 것으로 조사됐다. 캐나다 원주민 언어인 이누이트어 위키피디아는 여러 문장으로 구성된 페이지 중 3분의 2 이상이 기계번역으로 만들어진 것으로 밝혀졌다.
그린란드어 위키피디아를 4년 전부터 관리해 온 독일인 케네스 베어(26)는 “1,500여 개 문서 중 거의 모든 문서가 그린란드어를 구사하지 못하는 사람들이 기계번역으로 작성한 것”이라며 “실제 그린란드인 기여자는 단 1-2명에 불과했다”고 밝혔다. 캐나다 인구를 41명이라고 표기하거나, 기계가 적절한 단어를 찾지 못해 무작위 문자열을 내뱉은 문서들이 넘쳐났다는 것이다.
더 큰 문제는 이런 잘못된 데이터가 AI 모델 훈련에 그대로 쓰이고 있다는 점이다. 구글 번역부터 챗GPT까지 AI 시스템들은 인터넷에서 수집한 대량의 텍스트로 학습하는데, 위키피디아가 사용자가 적은 언어들의 주요 온라인 데이터 저장소 역할을 하기 때문이다.
노르웨이 트롬쇠대학교의 전산언어학자 트론드 트로스테루드 교수는 “AI가 ‘위키피디아 하이재커’들에게 힘을 실어주고 있다”고 지적했다. 이전에는 사전에만 의존했던 이들이 이제 구글 번역을 활용해 훨씬 길고 그럴듯해 보이는 가짜 콘텐츠를 대량으로 만들어낼 수 있게 됐다는 설명이다.
위키미디어 재단은 각 언어판 커뮤니티가 콘텐츠 품질 관리 책임을 져야 한다는 입장이다. 하지만 활발한 커뮤니티가 없는 소외 언어판은 사실상 관리가 어려운 게 현실이다.
결국 베어의 요청으로 그린란드어 위키피디아는 올해 초 폐쇄가 결정됐다. 위키피디아 언어위원회는 “AI 도구 사용으로 언어를 잘못 표현할 수 있는 무의미한 내용이 자주 생성됐다”고 폐쇄 이유를 밝혔다. 하지만 이미 구글 번역과 챗GPT 모두 그린란드어로 1부터 10까지 제대로 세지 못할 정도로 오류가 AI 시스템에 깊숙이 스며들었다.
해당 기사의 원문은 MIT 테크놀로지 리뷰에서 확인 가능하다.
이미지 출처: 이디오그램 생성