Search

위키피디아 AI 때문에 파산 위기? 무료 지식 사이트들이 AI 회사 대신 돈 내고 있다

Generative AI and the Future of the Digital Commons: Five Open Questions and Knowledge Gaps
이미지 출처: 이디오그램 생성

유럽위원회 공동연구센터가 주최한 “생성형 AI와 디지털 공유지의 미래” 워크숍에서 발표한 학술 논문에 따르면, 위키피디아를 운영하는 위키미디어 재단이 2025년 4월 1일 블로그에서 심각한 문제를 호소했다. AI 회사들이 데이터를 긁어가려고 보내는 자동 프로그램들 때문에 위키피디아 서버에 너무 많은 부담이 가해지고 있다는 것이다.

현재 위키피디아에서 가장 비싼 인터넷 트래픽의 65%가 이런 AI 데이터 수집 프로그램에서 나오고 있다. 2024년 1월부터는 사진과 동영상 다운로드로 인한 데이터 사용량이 50%나 늘었다. 위키미디어 재단은 “우리 내용은 무료로 제공하지만, 서버 운영비는 무료가 아니다”라고 말했다. AI 회사들이 대량으로 데이터를 가져가면서 생기는 엄청난 트래픽을 감당하기 위해 필요한 비용이 크게 늘어나고 있다는 뜻이다.

이런 문제는 위키피디아만의 문제가 아니다. 인터넷에 무료로 정보를 제공하는 많은 사이트들이 같은 고민을 하고 있다. 하지만 이런 사이트들의 목소리는 AI 논의에서 잘 들리지 않는다. 대신 저작권을 가진 기업이나 일반 사용자들의 이야기만 주로 다뤄진다.

무료 인터넷 자료가 AI 발전의 밑바탕

지금 우리가 쓰는 AI는 인터넷의 무료 자료들 덕분에 만들어졌다. 텍스트, 이미지, 소리, 코드, 동영상을 만드는 AI들은 모두 인터넷의 ‘공용 자료’를 학습해서 똑똑해졌다. 여기에는 수십억 개의 토론 게시판, 백과사전 페이지, 전자책과 신문, 무료 프로그램 코드, 무료 논문, 사진, 동영상, 음성 파일 등이 포함된다.

이런 공용 자료들은 그냥 저절로 만들어진 게 아니다. 전 세계 박물관, 도서관, 연구자, 자원봉사자들이 시간과 노력을 들여서 자료를 정리하고, 설명을 달고, 분류하고, 새로 업데이트한다. 그런데 AI 회사들이 이런 자료로 AI를 만들 때는 원래 자료를 만든 사람들의 가치나 규칙을 지키지 않는 경우가 많다.

개발자 질문 사이트, ChatGPT 나온 후 이용자 25% 줄어

최근 연구에 따르면 ChatGPT 같은 AI가 나온 후 개발자들이 스택 오버플로우 같은 질문 사이트를 덜 쓰게 되었다. ChatGPT가 출시된 지 6개월 만에 스택 오버플로우 활동이 25%나 줄었다. 이는 ChatGPT를 쓸 수 없는 러시아나 중국과 비교했을 때 나온 결과다.

현재 AI 챗봇을 쓰는 사람이 전 세계적으로 4억 명 정도 된다고 한다. 이 숫자가 계속 늘어나면 사람들이 직접 인터넷 사이트를 방문하는 일은 더욱 줄어들 것이다. 검색엔진에서도 AI가 답을 바로 보여주면 사람들이 원래 사이트를 방문할 필요가 없어진다. 그러면 무료 정보를 제공하는 사이트들은 방문자가 줄어들고, 새로운 내용을 올리는 사람도 줄어들게 된다.

위키피디아에 AI가 쓴 가짜 글 늘어나

최근 연구에서 위키피디아에 AI가 쓴 글이 늘어나고 있다는 사실이 밝혀졌다. AI가 만든 내용이 인터넷에 대량으로 퍼지면서 문제가 되고 있다. 이런 내용을 ‘가짜 데이터’ 또는 심한 경우 ‘AI 쓰레기’라고 부른다. 좋은 의도든 나쁜 의도든 상관없이 이런 내용들이 계속 늘어나면서 내용을 관리하는 일이 훨씬 어려워지고 있다.

가장 큰 문제는 AI가 만든 글이 겉보기에는 그럴듯해 보이지만 사실은 틀린 내용이 많다는 것이다. 사실 확인도 제대로 안 되어 있고, 편견도 들어있다. 이런 글을 구별해내는 일은 시간도 많이 걸리고 어렵다. 특히 소수 언어로 위키피디아를 편집하는 사람들이나 작은 커뮤니티에서는 이미 사람도 부족하고 자원도 부족해서 가짜 내용을 걸러내기가 더욱 힘들다.

무료 사이트들이 AI 회사 대신 비용 부담

앞서 말한 위키피디아 사례처럼, 무료로 정보를 제공하는 사이트들의 운영비가 AI 때문에 크게 늘어나고 있다. 쉽게 말해서 무료 사이트들이 AI 회사들을 대신해서 비용을 내고 있는 셈이다. AI 회사들이 데이터를 가져가려고 서버에 부담을 주면, 그 비용은 고스란히 사이트 운영자들이 떠안게 된다.

게다가 서버 사용량이 늘어나면 전기도 더 많이 쓰게 되어 환경에도 나쁜 영향을 준다. 무료 사이트들이 원하지 않게 AI의 환경 문제에 간접적으로 기여하게 되는 것이다. 여기에 가짜 내용을 걸러내고 품질을 관리하는 비용까지 더해지면서 부담은 더욱 커지고 있다.

FAQ

Q1: AI가 위키피디아 같은 무료 사이트에 어떤 문제를 일으키나요?

A1: AI 회사들이 데이터를 가져가려고 보내는 자동 프로그램들이 사이트 서버에 큰 부담을 줍니다. 위키피디아의 경우 이런 프로그램들이 전체 트래픽의 65%를 차지하고, 서버 비용이 50%나 늘어났습니다.

Q2: 왜 개발자들이 질문 사이트를 덜 쓰게 되었나요?

A2: ChatGPT 같은 AI가 개발자들의 질문에 빠르게 답해주면서, 사람들이 스택 오버플로우 같은 사이트에 질문하거나 답변할 필요를 덜 느끼게 되었습니다. 실제로 활동이 25%나 줄어들었습니다.

Q3: AI가 만든 가짜 내용이 위키피디아에 왜 문제가 되나요?

A3: AI가 만든 글은 겉보기에는 그럴듯해 보이지만 틀린 정보가 많이 들어있을 수 있습니다. 특히 사람이 적은 소규모 커뮤니티에서는 이런 가짜 내용을 찾아내서 고칠 인력과 시간이 부족합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Generative AI and the Future of the Digital Commons: Five Open Questions and Knowledge Gaps

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




위키피디아 AI 때문에 파산 위기? 무료 지식 사이트들이 AI 회사 대신 돈 내고 있다 – AI 매터스 l AI Matters