XDAC: XAI-Driven Detection and Attribution of LLM-Generated News Comments in Korean
카이스트 김용대 교수 연구팀이 국가보안기술연구소(국보연)와 협력해, 대규모 언어모델(LLM)이 생성한 한국어 뉴스 댓글을 98.5%의 정확도로 탐지할 수 있는 새로운 기술 ‘XDAC’을 개발했다. 카이스트 뉴스룸에 따르면, 이번 연구는 온라인 뉴스 플랫폼의 댓글 조작과 여론 조작을 방지하는 데 중요한 기술적 돌파구가 될 것으로 평가된다.
“130만 vs 100만”… 세계 최초 한국어 뉴스 댓글 AI 탐지 데이터셋 완성

연구진은 세계 최초로 한국어 뉴스 댓글에 특화된 대규모 벤치마크 데이터셋을 구축했다. 이 데이터셋은 한국 주요 뉴스 플랫폼에서 수집한 130만 개의 실제 사용자 댓글과 14개의 서로 다른 LLM 모델이 생성한 100만 개의 가짜 댓글로 구성되어 있다. 연구진은 ChatGPT 공개 이전인 2022년 이전 데이터만을 사용하여 데이터셋의 순수성을 보장했다. 실제 댓글의 평균 길이는 51자(11단어)로, 기존 탐지 도구들이 요구하는 최소 250자보다 훨씬 짧아 기존 방법론의 한계를 드러낸다.
“것 같다” vs “ㅋㅋㅋㅋㅋ”… XAI가 밝혀낸 AI와 인간 댓글의 결정적 차이점
XDAC 기술의 핵심은 설명 가능한 AI(XAI) 기법을 활용한 언어 패턴 분석이다. 연구진은 Guided GradCAM과 CAPTUM을 이용하여 AI 생성 댓글과 사람이 작성한 댓글 간의 미묘한 언어적 차이점을 규명했다. AI 생성 댓글은 “것 같다”, “에 대해”와 같은 정형화된 표현을 선호하는 반면, 사람이 작성한 댓글은 “ㅋㅋㅋㅋㅋ”, “….” 같은 감정적 표현과 반복 문자를 더 자주 사용한다는 것을 발견했다. 이러한 분석을 바탕으로 개발된 특화 토크나이저는 반복 패턴, 공백, 포맷팅 문자를 효과적으로 처리하여 극단적으로 짧은 텍스트에서도 94.1%의 높은 성능을 달성했다.
네이버 실전 투입 결과… 524만 댓글 중 AI 생성 의심 댓글 2만 7천 개 적발
연구진은 XDAC의 실용성을 검증하기 위해 2023년 1월부터 2024년 8월까지 한국 최대 온라인 뉴스 플랫폼인 네이버에 게시된 524만 개의 댓글을 실제로 분석했다. 그 결과 총 10만 8천 개(2.1%)의 잠재적 AI 생성 댓글을 발견했으며, 이 중 높은 확률로 분류된 2만 7천 개의 댓글을 AI 생성 댓글로 최종 식별했다. 사용자 ID 그룹화 분석을 통해 LLM을 광범위하게 사용하는 것으로 의심되는 계정들도 발견했다. 연구진은 이러한 결과를 네이버에 보고했으며, 네이버 측은 연구 결과의 중요성과 댓글 섹션 무결성 유지를 위한 탐지 시스템의 잠재적 영향을 인정했다고 밝혔다.
GPT-4o 대비 2,000배 빠른 속도… 초당 428개 댓글 처리하는 한국산 기술력
XDAC는 기존의 다양한 탐지 방법들을 크게 뛰어넘는 성능을 보였다. 메트릭 기반 모델 중 최고 성능인 MFD의 77.2%를 크게 상회했으며, LM 기반 모델인 LM-D 대비 68.1%의 상대적 성능 향상을 달성했다. 특히 주목할 점은 최신 LLM인 GPT-4o를 파인튜닝한 모델과 비교했을 때도 16.7%의 성능 향상을 보인다는 것이다. 비용 효율성 측면에서도 XDAC는 초당 428.3개의 댓글을 처리할 수 있어 GPT-4o 기반 모델의 초당 0.2개보다 2,000배 이상 빠르며, 댓글당 0.00023달러의 비용이 드는 GPT-4o와 달리 로컬 실행이 가능해 대규모 적용에 이상적이다.
FAQ
Q: XDAC 기술이 기존 AI 텍스트 탐지 도구와 다른 점은 무엇인가요?
A: XDAC는 한국어 단문 댓글에 특화되어 설계된 최초의 탐지 기술입니다. 기존 도구들이 최소 250자 이상의 영문 텍스트를 요구하는 반면, XDAC는 평균 51자의 한국어 댓글도 98.5% 정확도로 탐지할 수 있습니다.
Q: AI가 생성한 댓글과 사람이 작성한 댓글의 주요 차이점은 무엇인가요?
A: AI 생성 댓글은 “것 같다”, “에 대해” 같은 정형화된 표현을 선호하고 포맷팅 문자 사용이 거의 없는 반면, 사람 댓글은 “ㅋㅋㅋㅋㅋ”, “….” 같은 감정 표현과 반복 문자를 자주 사용하며 공백이나 줄바꿈 등의 포맷팅을 26.1% 빈도로 사용합니다.
Q: XDAC 기술의 실제 활용 가능성은 어떠한가요?
A: 연구진이 네이버 댓글 524만 개를 분석하여 2만 7천 개의 AI 생성 댓글을 실제로 발견한 사례에서 보듯이, 온라인 플랫폼의 댓글 조작 방지와 여론 조작 탐지에 즉시 활용 가능한 수준의 기술입니다.
해당 기사에 인용된 논문 원문은 카이스트에서 확인 가능하다.
이미지 출처: XDAC: XAI-Driven Detection and Attribution of LLM-Generated News Comments in Korean
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.