Detection and Measurement of Syntactic Templates in Generated Text
AI 텍스트의 숨겨진 패턴 발견
인공지능이 작성한 글을 식별하는 것은 점점 더 어려워지고 있다. 최신 AI 언어모델들은 매우 자연스러운 텍스트를 생성할 수 있지만, 여전히 미묘한 차이가 존재한다. 노스이스턴대학교(Northeastern University) 연구진이 AI 생성 텍스트를 식별할 수 있는 새로운 방법을 개발했다. 연구진은 AI가 특정한 문법적 패턴을 사람보다 더 자주 반복해서 사용한다는 사실을 발견했다.
기존에는 AI가 특정 단어나 구문을 반복 사용하는 경향이 있다는 점이 알려져 있었다. 예를 들어 챗GPT(ChatGPT)는 한때 ‘delve into’라는 표현을 자주 사용했다. 하지만 이번 연구는 단순한 단어 반복을 넘어 문장 구조 자체의 패턴을 분석했다는 점에서 주목할 만하다.
각 AI 모델마다 고유한 ‘문법 서명’ 발견
연구를 주도한 샨탈 샤이브(Chantal Shaib) 박사과정 학생과 데이터과학 프로그램 디렉터인 바이런 월레스(Byron Wallace) 교수는 다양한 AI 모델들이 생성한 텍스트를 분석했다. 연구팀은 영화 리뷰, 뉴스 기사, 의학 연구 요약문 등 여러 종류의 텍스트를 AI 모델에게 작성하도록 하고, 이를 분석했다.
분석 결과 각 AI 모델은 마치 ‘서명’과도 같은 고유한 문법 패턴을 가지고 있었다. 예를 들어 ‘The Last Black Man in San Francisco’ 영화에 대한 리뷰에서 한 모델은 ‘독특하고 강렬한 관람 경험(unique and intense viewing experience)’, ‘매우 독창적이고 인상적인 데뷔작(highly original and impressive debut)’, ‘마법 같고 생각을 자극하는(magical and thought-provoking)’과 같이 이중 형용사 구조를 두 문단 안에서 반복적으로 사용했다.
AI의 패턴 사용, 모델 크기와 무관
흥미로운 점은 AI 모델의 규모와 상관없이 모든 모델이 사람보다 더 높은 빈도로 문법 패턴을 반복 사용했다는 것이다. 연구진은 다양한 크기의 AI 모델을 분석했지만, 모델의 크기가 패턴 사용 빈도에 큰 영향을 미치지 않았다.
다만 텍스트의 종류에 따라 AI와 사람의 패턴 사용 빈도 차이는 달랐다. 특히 의학 논문처럼 특정한 스타일 가이드를 따르는 정형화된 글쓰기에서는 그 차이가 상대적으로 적었다. 반면 영화 리뷰나 뉴스 기사처럼 작성자가 더 창의적으로 표현할 수 있는 장르에서는 AI가 훨씬 더 많은 패턴을 반복 사용하는 것으로 나타났다.
학습 데이터에서 발견되는 문법 패턴들
연구진은 이러한 문법 패턴의 출처도 추적했다. 분석 결과 AI가 사용하는 문법 패턴의 약 75%가 모델의 학습 데이터에서 발견됐다. 이는 AI가 텍스트를 생성하는 과정에서 새로운 패턴을 만들어내는 것이 아니라, 학습 과정에서 접한 패턴을 재사용한다는 것을 의미한다.
“사람도 글을 쓸 때 반복되는 문법 구조를 사용할 수 있습니다. 하지만 그 빈도가 AI 모델들보다 훨씬 낮죠”라고 샤이브 연구원은 설명했다. 월레스 교수는 “이번 연구는 많은 AI 생성문이 공식적(formulaic)이라는 직감을 실증적으로 입증했다”고 덧붙였다.
새로운 AI 텍스트 분석 방법론 제시
연구진은 이 방법이 AI 생성 텍스트를 완벽하게 탐지할 수 있는 도구는 아니라고 강조했다. 대신 이 연구는 AI 생성문의 특징을 이해하고 분석하는 새로운 방법론을 제시했다는 데 의의가 있다.
“이 연구의 가장 큰 의의는 특정 텍스트가 왜 인위적으로 느껴지는지, 특히 여러 텍스트를 연속해서 볼 때 느끼는 그 감각의 원인을 설명할 수 있는 도구를 제공한다는 것입니다. 단순히 느낌에 의존하는 것이 아니라 실제로 무슨 일이 일어나고 있는지 분석할 수 있는 방법론을 제시했죠”라고 샤이브 연구원은 설명했다.
이 연구는 AI 생성 텍스트의 특징을 더 깊이 이해하고, 향후 AI 언어모델의 발전 방향을 제시하는 데도 도움이 될 것으로 기대된다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기