챗GPT가 스스로를 복사하기 시작했다, 인터넷 오염이 부른 AI 자기수렴 현상

챗GPT(ChatGPT)가 버전을 거듭할수록 같은 내용을 묻는 질문에 점점 더 비슷한 답변을 내놓고 있다는 실험적 증거가 나왔다. 캘거리 대학교(University of Calgary)와 스테슨 대학교(Stetson University) 연구팀이 발표한 논문은 최신 챗GPT 모델들이 오래된 버전보다 오히려 다양한 텍스트를 생성하는 능력이 떨어진다는 사실을 수치로 입증했다. AI가 쏟아낸 글이 인터넷을 뒤덮으면서, AI 스스로가 그 글로 훈련받는 악순환이 시작된 것이다.

AI가 자기 자신을 학습하는 악순환

대형 언어 모델(LLM, Large Language Model)은 인터넷에 존재하는 방대한 텍스트를 학습해 만들어진다. 챗GPT 3.5 터보(Turbo)가 처음 출시된 2022년 11월 당시에는 학습 데이터의 대부분이 사람이 직접 쓴 글이었다. 그러나 챗GPT를 비롯한 AI 도구가 전 세계적으로 폭발적으로 확산되면서 상황이 달라졌다. 이메일, 보고서, 과제물, 기사, 요약문 등 오늘날 인터넷에 올라오는 텍스트의 상당 부분은 AI가 작성하거나 AI의 도움을 받아 만들어진다. 최신 모델인 챗GPT 5.2가 학습에 사용하는 데이터에는 이처럼 AI가 생성한 글이 이전 버전보다 훨씬 많이 섞여 있다. 연구팀은 이 현상을 ‘모델 자기수렴(Model Self-Convergence)’이라고 정의한다. 이는 AI가 반복 학습으로 무의미한 출력을 내놓는 기존의 ‘모델 붕괴(Model Collapse)’ 개념과는 다르다. 모델 자기수렴은 겉보기에 멀쩡한 문장을 생성하지만, 그 내용이 점점 서로 닮아가는 현상을 말한다.

실험 설계: 고전 문학 요약문으로 AI를 테스트하다

연구팀은 이 현상을 측정하기 위해 정교한 실험을 설계했다. 핵심 아이디어는 ‘사람이 쓴 텍스트를 각기 다른 챗GPT 버전에게 패러프레이즈(paraphrase), 즉 같은 내용을 다른 말로 바꿔 쓰도록 요청한 뒤, 각 버전의 결과물이 얼마나 서로 닮아 있는지 측정하는 것’이다. 연구팀은 클리프노츠(CliffNotes)와 스파크노츠(SparkNotes)라는 두 고전 문학 학습 참고서에서 443개 챕터의 요약문을 원본 텍스트로 선정했다. 이 자료들은 수십 년 전부터 존재해온 순수 인간 저작물이며, AI 등장 이전에 디지털화된 것들이다. 비교 대상 AI 모델은 챗GPT 3.5 터보부터 챗GPT 5.2까지 총 7개 버전으로, 학습 데이터 기준 시점(지식 차단일)이 2021년 9월부터 2025년 8월까지 다양하게 분포되어 있다. 유사성 측정은 ‘유사성 비율 지수(SPR, Similarity Percentage Ratio)’라는 자체 개발 지표를 사용했다. 이 지수는 두 텍스트에서 공통으로 반복되는 단어 패턴의 비율을 계산한다. 패턴의 길이는 3단어부터 20단어까지 다양하게 분석했다.

최신 챗GPT일수록 더 ‘판에 박힌’ 답변을 낸다

실험 결과는 예상을 뒤집었다. 버전이 올라갈수록 파라미터(parameter, AI 모델의 복잡성을 나타내는 수치) 수가 늘고 알고리즘이 개선됐으니 당연히 더 다양한 텍스트를 생성해야 한다. 그러나 결과는 정반대였다. 온도(Temperature) 파라미터를 1로 설정한 최대 확률 변동 모드에서, 최신 버전인 챗GPT 5 계열의 유사성 비율은 가장 오래된 3.5 터보와 비교해 짧은 패턴(3단어)에서 약 2배, 긴 패턴(15~20단어)에서는 최대 20~30배에 달했다. 온도 파라미터 1이란 AI가 가장 창의적이고 다양한 표현을 쓸 수 있도록 설정된 상태다. 그럼에도 최신 모델들은 같은 텍스트를 반복해서 패러프레이즈할 때 길고 동일한 구절을 그대로 재사용하는 경향을 보였다. 반면 사람이 쓴 두 참고서는 같은 소설 챕터를 요약했음에도 유사성 비율이 거의 0에 수렴할 만큼 표현 방식이 서로 달랐다.

왜 이런 일이 벌어지는가

연구팀은 이 현상의 원인으로 인터넷의 AI 생성 콘텐츠 오염을 지목한다. AI 모델이 학습하는 과정을 이해하려면 ‘탑-P(Top-P)’와 ‘탑-K(Top-K)’ 필터링 방식을 알아야 한다. AI는 다음 단어를 선택할 때 가장 확률이 높은 단어들의 후보군을 추린 뒤 그 안에서 선택한다. 그런데 인터넷에 같은 AI가 만든 비슷한 표현의 글이 넘쳐날수록, 특정 단어 조합의 등장 빈도가 높아지고 그 단어들이 후보군의 상위권을 독식하게 된다. 결국 온도를 아무리 높게 설정해도, 낮은 확률의 창의적인 단어는 후보군 자체에서 밀려나 선택받을 기회를 잃는다. 이 현상은 기존에 우려하던 ‘모델 붕괴’와는 다르다. 붕괴는 AI가 의도적으로 자신의 출력물만으로 반복 학습할 때 발생하는 문제다. 반면 모델 자기수렴은 AI들이 이미 오염된 인터넷 전체를 학습하는 현재의 방식 자체에서 자연스럽게 발생한다는 점에서 더 광범위하고 막기 어렵다. 연구팀은 이 악순환을 끊으려면 AI 등장 이전의 순수 인간 저작물만으로 학습 데이터를 구성하거나, AI 생성 콘텐츠를 학습 데이터에서 완전히 걸러내야 한다고 지적하지만, 이는 현실적으로 매우 어렵다고 인정한다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 모델 자기수렴이 일반 사용자에게 어떤 영향을 미치나요? 모델 자기수렴이 심화되면 챗GPT에게 같은 주제로 글을 여러 번 요청해도 점점 비슷한 결과물이 나올 가능성이 높아집니다. 창작, 글쓰기, 보고서 작성 등 다양한 표현이 중요한 작업에서 AI의 활용 가치가 떨어질 수 있습니다.

Q. 모델 붕괴(Model Collapse)와 모델 자기수렴(Model Self-Convergence)은 어떻게 다른가요? 모델 붕괴는 AI가 자신의 출력물로만 반복 훈련했을 때 결국 의미 없는 글을 생성하는 현상입니다. 반면 모델 자기수렴은 훈련 데이터 자체가 AI 생성 콘텐츠로 오염된 인터넷 데이터를 포함하면서, 출력 결과가 점점 서로 닮아가는 현상으로 문장 자체는 정상적으로 보이지만 다양성을 잃는 것이 특징입니다.

Q. 이 문제를 해결할 방법이 있나요? 연구팀은 AI 등장 이전에 작성된 순수 인간 저작물만 학습 데이터로 사용하거나, AI가 생성한 콘텐츠를 데이터에서 걸러내는 방법을 제안합니다. 그러나 이미 인터넷 전반에 AI 생성 콘텐츠가 광범위하게 퍼진 상황에서 현실적인 적용은 매우 어렵다고 연구팀 스스로도 인정하고 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Experimental evidence of progressive ChatGPT models self-convergence

이미지 출처: Open

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.