The Reopening of Pandora’s Box: Analyzing the Role of LLMs in the Evolving Battle Against AI-Generated Fake News
대규모 언어모델, 진짜 뉴스는 잘 찾지만 가짜뉴스 탐지는 한계 드러내
대규모 언어모델(LLM)이 인간보다 진짜 뉴스를 구분하는 능력은 68% 더 뛰어났지만, 가짜뉴스를 탐지하는 정확도는 인간과 비슷한 60% 수준에 그친 것으로 나타났다. 미국의 한 주요 연구대학에서 진행한 대회 결과를 분석한 연구에 따르면, AI는 자신이 만든 가짜뉴스조차 효과적으로 탐지하지 못했다. 이는 AI 기반의 가짜뉴스 탐지 시스템이 아직 실전에서 효과적인 대응 수단이 되기 어렵다는 것을 시사한다.
연구진은 대학 구성원들을 대상으로 4주간의 경연대회를 진행했다. 1단계에서는 110명의 참가자들이 AI를 활용해 252개의 독창적인 가짜뉴스를 제작했고, 2단계에서는 84명의 다른 참가자들이 이를 평가했다. 각 평가자는 18개의 기사(가짜뉴스 9개, 진짜뉴스 9개)를 분석하여 진위를 판별했다.
특히 주목할 만한 점은 AI의 뉴스 평가 방식이다. 연구진은 GPT-4o를 사용해 두 가지 방식으로 평가를 진행했다. 첫 번째는 각각의 기사를 개별적으로 평가하는 ‘단일 처리’ 방식이고, 두 번째는 인간 평가자들처럼 여러 기사를 연속해서 평가하는 ‘일괄 처리’ 방식이다. 실험 결과, AI는 개별 기사를 평가할 때 더 정확한 판단을 내렸다. 이는 여러 기사를 동시에 처리할 때 맥락 간섭이 발생할 수 있다는 것을 시사한다.
가짜뉴스에 대한 경계심이 진짜 뉴스 신뢰도도 떨어뜨려
인간 평가자들의 경우, 가짜뉴스가 섞여 있다는 사실을 미리 알고 있었기 때문에 전반적으로 높은 경계심을 보였다. 이러한 경계심은 양날의 검으로 작용했다. 한편으로는 가짜뉴스를 식별하는 데 도움이 됐지만, 다른 한편으로는 진짜 뉴스마저 의심하게 만드는 부작용을 낳았다. 실제로 인간 평가자들은 진짜 뉴스와 가짜뉴스를 구분하는 데 있어 비슷한 수준의 정확도(약 60%)를 보였다.
연구진은 이러한 현상이 ‘할인 효과(discounting effect)’를 일으킬 수 있다고 경고한다. 즉, 과도한 경계심이 뉴스 매체 전반에 대한 신뢰도를 떨어뜨리고, 이는 결과적으로 이용자들을 검증되지 않은 개인 메시징 앱이나 소셜 미디어로 내몰 수 있다는 것이다.
AI 생성 이미지가 포함된 가짜뉴스는 더 쉽게 적발돼
연구진은 시각적 요소가 가짜뉴스 탐지에 미치는 영향도 자세히 분석했다. 252개의 가짜뉴스 중 63개에는 이미지가 포함되어 있었는데, 이 중 12개는 AI가 생성한 이미지였고, 51개는 인터넷 등에서 가져온 실제 이미지였다.
분석 결과, AI가 생성한 이미지가 포함된 가짜뉴스의 경우 인간 평가자들의 탐지 정확도가 75%까지 올라갔다. AI 평가 시스템도 이미지와 텍스트를 동시에 처리할 때는 비슷한 수준의 정확도를 보였다(GPT-4o: 71.43%, 제미니: 75%).
반면 실제 이미지가 포함된 가짜뉴스의 경우, 탐지 정확도가 크게 떨어졌다(인간: 64.71%, GPT-4o: 57.14%, 제미니: 60.78%). 이는 현재 AI 생성 이미지들이 아직 충분히 정교하지 않아 상대적으로 쉽게 식별된다는 것을 보여준다.
과학·기술 분야 가짜뉴스가 가장 많아…지역 뉴스는 AI도 구분 어려워
대회 참가자들이 생성한 가짜뉴스의 주제를 분석한 결과, 과학 연구(19.84%)와 AI·기술(12.30%) 관련 내용이 가장 많았다. 그 다음으로는 정치·정책(13.49%), 엔터테인먼트·미디어(13.49%), 지역·커뮤니티 뉴스(12.70%) 순이었다. 의학·임상연구(7.94%), 국제 문제(8.33%), 코로나19·공중보건(3.57%) 관련 뉴스는 상대적으로 적었다.
특히 주목할 점은 지역 뉴스 형태의 가짜뉴스가 AI 시스템에게는 가장 탐지하기 어려운 것으로 나타났다는 것이다. GPT-4o의 경우 지역 뉴스 형태의 가짜뉴스 탐지 정확도가 29.17%에 그쳤고, 제미니도 45.83%의 저조한 성적을 보였다. 이는 AI 모델들이 지역 맥락에 대한 학습 데이터가 부족하기 때문으로 분석된다.
반면 코로나19와 공중보건 관련 가짜뉴스는 AI가 가장 잘 탐지했다. GPT-4o는 71.43%, 제미니는 85.71%의 정확도를 보였다. 이는 팬데믹 기간 동안 축적된 방대한 데이터가 AI의 판단 능력을 향상시켰기 때문으로 보인다.
인간-AI 협력으로 만든 가짜뉴스가 더 위험…다양한 생성 전략 활용
연구진은 참가자들이 가짜뉴스를 만들 때 사용한 전략도 상세히 분석했다. 가장 많이 사용된 방식은 AI에게 거짓된 진술을 확장하도록 지시하는 것이었다(46.03%). 예를 들어 “과학자들이 공룡의 실제 울음소리를 발견했다는 500단어 분량의 뉴스 기사를 써달라”와 같은 방식이다.
두 번째로 많이 사용된 방식은 직접적인 지시(26.59%)였다. “뉴욕 타임스에 제출할 만한 뉴스 기사를 생성해달라”와 같은 단순한 요청이 여기에 해당한다. 그 다음으로는 기존 기사를 모방하는 방식(17.06%)과 실제 사실을 왜곡하는 방식(11.51%)이 뒤를 이었다.
참가자들은 이러한 기본 전략에 더해 다양한 보조 전략도 활용했다. 문체를 조정하거나(24.21%), 권위 있는 출처를 인용하거나(20.24%), 맥락을 풍부하게 하거나(7.54%), 실제 사실을 추가하거나(1.98%), 반복적으로 수정하거나(22.22%), 여러 버전 중 최선의 것을 선택하거나(4.37%), 수동으로 편집하는(9.13%) 등의 방식이다.
특히 주목할 만한 점은 인간이 AI와 협력하여 여러 전략을 조합해 만든 가짜뉴스가 순수하게 AI만으로 생성한 것보다 탐지하기가 훨씬 어렵다는 것이다. 연구진이 기존의 AI 생성 가짜뉴스 데이터셋(LLMFake)과 비교 분석한 결과, 인간-AI 협력으로 만든 가짜뉴스는 탐지 정확도가 약 26% 더 낮은 것으로 나타났다.
미래 과제: 더 정교한 탐지 시스템 필요
이번 연구는 현재 AI 기반 가짜뉴스 탐지 시스템의 한계를 명확히 보여준다. 특히 인간과 AI가 협력하여 만든 가짜뉴스는 기존의 탐지 시스템으로는 효과적으로 대응하기 어렵다는 점이 드러났다.
연구진은 이러한 도전과제를 해결하기 위해 몇 가지 제안을 했다. 첫째, 주제별로 특화된 AI 탐지 시스템을 개발할 필요가 있다. 둘째, 지역 맥락에 대한 학습 데이터를 보강해야 한다. 셋째, 이미지와 텍스트를 통합적으로 분석하는 능력을 향상시켜야 한다. 마지막으로 연구진은 가짜뉴스 탐지가 단순히 기술적인 문제가 아니라는 점을 강조했다. 뉴스 소비자들의 비판적 사고력을 향상시키고, 건전한 의구심과 과도한 불신 사이의 균형을 찾는 것도 중요한 과제라는 것이다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기