• Home
  • AI Report
  • 웹의 충격적인 사실, 상당 부분이 기계 번역으로 이뤄져

웹의 충격적인 사실, 상당 부분이 기계 번역으로 이뤄져

A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
이미지 출처: 미드저니 생성

A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism

인공지능(AI) 기술의 발전으로 웹상의 콘텐츠 생태계가 크게 변화하고 있다. 최근 AWS AI 연구소와 UC 산타바바라 연구진이 발표한 보고서에 따르면, 웹상의 상당 부분이 기계 번역으로 이뤄져 있으며 특히 학습에 필요한 텍스트 데이터나 언어 자원이 충분하지 않은 언어에서 그 비중이 높은 것으로 나타났다. 이는 AI 학습 데이터와 웹 콘텐츠의 품질에 대한 우려를 낳고 있다.

웹상 번역 콘텐츠의 실태와 다국어 병렬 데이터 분석

연구진은 90개 언어, 64억 개의 고유 문장으로 구성된 대규모 다국어 병렬 말뭉치를 구축해 분석을 진행했다. 그 결과 웹상의 콘텐츠 중 상당 부분이 여러 언어로 번역되어 있으며, 그 품질로 미루어 볼 때 대부분 기계 번역을 통해 생성된 것으로 추정된다.

연구 결과에 따르면, 영어의 경우 전체 웹 문장 중 9.4%가 하나 이상의 다른 언어로 번역되어 있었고, 프랑스어의 경우 그 비율이 17.5%에 달했다. 특히 주목할 만한 점은 저자원 언어일수록 번역된 콘텐츠의 비중이 높다는 것이다.

ccMatrix에서 자원이 가장 풍부한 상위 10개 언어의 평균 병렬성은 4.0인 반면, 하위 10개 언어의 평균 병렬성은 8.6에 달했다. 이는 저자원 언어의 웹 콘텐츠 중 상당 부분이 여러 언어로 번역된 다국어 병렬 데이터라는 것을 의미한다.

기계 번역의 품질 평가와 LASER 마진 점수 분석

연구진은 CometQE라는 품질 평가 모델을 사용해 번역의 품질을 분석했다. 그 결과 다국어 병렬성이 높을수록(즉, 더 많은 언어로 번역될수록) 번역 품질이 떨어지는 것으로 나타났다.

2개 언어로 번역된 경우와 8개 이상의 언어로 번역된 경우를 비교했을 때, CometQE 점수가 평균 6.2점 낮았다. 이는 다국어 병렬성이 높은 콘텐츠일수록 기계 번역을 통해 생성되었을 가능성이 높다는 것을 시사한다.

또한 연구진은 LASER(Language-Agnostic SEntence Representations) 마진 점수를 분석한 결과, 다국어 병렬성이 높은 데이터일수록 마진 점수가 높은 것을 발견했다. 이는 LASER가 인간 번역보다 기계 번역 출력에 대해 편향된 선호도를 보인다는 것을 의미한다.

다국어 병렬 데이터의 특성과 선택 편향 현상

연구진은 다국어 병렬 데이터의 특성을 분석한 결과, 몇 가지 주목할 만한 특징을 발견했다.

첫째, 다국어 병렬성이 높은 문장일수록 길이가 짧고 예측 가능성이 높았다. 예를 들어 영어의 경우, 2개 언어로 번역된 문장의 평균 길이가 103.7자였던 반면, 8개 이상의 언어로 번역된 문장은 59.9자에 불과했다.

둘째, GPT-2 모델을 사용해 측정한 결과 다국어 병렬성이 높은 문장일수록 퍼플렉서티(perplexity)가 낮았다. 이는 해당 문장들이 보다 단순하고 예측하기 쉬운 내용으로 구성되어 있다는 것을 의미한다.

셋째, 주제 분포에 있어서도 차이가 있었다. 2개 언어로 번역된 콘텐츠와 8개 이상의 언어로 번역된 콘텐츠를 비교했을 때, ‘대화 및 의견’ 카테고리의 비중이 22.5%에서 40.1%로 크게 증가한 반면, ‘뉴스 및 정보’ 카테고리는 12.2%에서 9.5%로 감소했다.

이러한 특성들은 다국어 병렬 데이터에 선택 편향이 존재함을 시사한다. 연구진은 이것이 주로 영어로 작성된 낮은 품질의 콘텐츠가 광고 수익을 목적으로 대량으로 번역되어 저자원 언어에 유입되는 현상 때문일 것으로 추정하고 있다.

AI 모델 개발에 미치는 영향과 데이터 품질 관리의 중요성

이번 연구 결과는 웹 데이터를 사용해 AI 모델을 학습시키는 데 있어 중요한 시사점을 제공한다.

첫째, 저자원 언어의 경우 웹에서 수집한 단일 언어 데이터와 이중 언어 데이터 모두에서 기계 번역된 콘텐츠가 차지하는 비중이 높을 수 있다. 이는 해당 언어의 AI 모델 개발에 부정적인 영향을 미칠 수 있다.

둘째, 다국어 대규모 언어 모델(LLM) 학습 시 웹에서 수집한 데이터의 품질에 더욱 주의를 기울여야 한다. 특히 저자원 언어의 경우, 단순히 데이터의 양을 늘리는 것보다 품질 관리가 중요할 수 있다.

셋째, 기계 번역 콘텐츠의 특성(짧은 문장 길이, 낮은 복잡성 등)으로 인해 이를 학습한 AI 모델의 성능이 제한될 수 있다. 특히 문장 간 연결성이나 복잡한 맥락 이해 능력 등이 부족할 수 있다.

마지막으로, 웹 데이터를 AI 학습에 활용할 때 다국어 병렬성을 기준으로 필터링하는 방법을 고려해볼 수 있다. 이는 저품질의 기계 번역 콘텐츠를 제거하는 데 도움이 될 수 있다.

AI 시대의 웹 콘텐츠 품질 관리와 윤리적 과제

이번 연구는 웹상의 콘텐츠 중 상당 부분이 기계 번역으로 이뤄져 있으며, 특히 저자원 언어에서 그 비중이 높다는 충격적인 사실을 밝혀냈다. 이는 AI 모델 개발자들에게 웹 데이터 사용 시 주의가 필요하다는 경각심을 일깨워주고 있다.

향후 AI 기술이 발전함에 따라 기계 번역의 품질도 향상될 것으로 예상되지만, 동시에 저품질 콘텐츠의 대량 생산과 유통도 더욱 쉬워질 수 있다. 따라서 AI 커뮤니티는 데이터 품질 관리와 윤리적 사용에 대해 지속적으로 고민하고 논의해 나가야 할 것이다.

AWS AI 연구소와 UC 산타바바라 연구진의 논문은 링크에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




웹의 충격적인 사실, 상당 부분이 기계 번역으로 이뤄져 – AI 매터스 l AI Matters