인공지능을 활용한 가짜 썸네일 탐지 연구에서 클로드 3.5 소네트가 기존 전문 시스템보다 뛰어난 성과를 보였다. 이때 가짜 썸네일은 내용에 비해 썸네일이 과장되거나 거짓 약속을 광고하거나, 실제 영상 내용과 썸네일의 주제가 불일치하는 등의 문제를 보이는 어그로성 썸네일을 의미한다. 파키스탄 라호르 경영과학대학 연구팀이 발표한 논문에 따르면, 8개국에서 모은 2,843개 유튜브 동영상을 대상으로 한 실험에서 클로드 3.5 소네트가 93.8%의 정확도를 기록했다.
76억 조회수 가짜 썸네일들, 현재 시스템으론 평균 2.5년 생존
연구팀은 8개국(미국, 영국, 스페인, 이탈리아, 브라질, 파키스탄, 인도네시아, 멕시코)에서 총 2,843개의 유튜브 동영상을 모았다. 이 중 1,359개가 속이는 썸네일 동영상으로 분류됐으며, 이들의 총 조회수는 76억 회를 넘었다. 특히 상위 10개 가짜 썸네일 동영상은 각각 1억 회 이상의 조회수를 기록해 가짜 썸네일의 엄청난 영향력을 보여줬다.
현재 유튜브 대응 시스템의 한계도 드러났다. 가짜 썸네일 동영상의 평균 업로드 기간이 442일에 달했으며, 상위 10개 가짜 썸네일 동영상의 평균 업로드 기간은 924일로 거의 2.5년에 가까웠다. 연구 기간 7주 동안 전체 데이터에서 삭제된 동영상은 단 65개에 불과했다. 이는 현재의 신고 위주 시스템이 가짜 썸네일 문제를 해결하는 데 한계가 있음을 보여준다.
분야별 분석 결과 엔터테인먼트, 스포츠, 개인 블로그가 가짜 썸네일의 대부분을 차지했다.

개발도상국은 ‘황당 클릭베이트’, 선진국은 ‘유명인 스캔들’ 선호
가짜 썸네일의 주요 수법으로는 과장된 전후 비교, 유명인사 조작, 과장된 부의 과시, 조작된 이미지, 자극적인 문구 사용 등이 확인됐다. 지역별로 가짜 썸네일 수법에 차이가 있었다. 개발도상국에서는 더 기괴하고 황당한 내용을 사용하는 반면, 선진국에서는 유명 인사 뉴스나 개인적 스캔들 등 미묘한 자극적 내용을 선호했다.
성적 내용 활용에서도 개발도상국이 더 노골적인 자극적 이미지를 사용했고, 선진국은 풍자나 드라마와 결합한 형태를 취했다. 특히 파키스탄에서는 마침표(.)만으로 검색하는 독특한 현상이 발견됐다. 이런 “마침표 동영상”들은 종종 불안하거나 소름 끼치는 썸네일을 특징으로 하는 유행과 같은 검색 행동의 일부였다.
클로드 3.5 소네트, 단계별 추론으로 전문 탐지 시스템 CHECKER 압도
4개의 최신 AI를 비교 평가한 결과, 클로드 3.5 소네트가 모든 지표에서 최고 성능을 보였다. 정확도 93.8%, 정밀도 92% 이상, 재현율 94% 이상을 달성했다. 클로드가 뛰어난 성능을 보인 핵심은 단계별 추론 능력이었다. 황당한 이미지가 포함된 썸네일을 평가할 때, 클로드는 “썸네일 내용”, “동영상 내용”, “대표성 부족”, “잘못된 기대감”으로 차근차근 분석한 후 “썸네일과 실제 내용의 불일치로 인해 시청자를 속인다”고 결론지었다.
반면 다른 모델들은 명확한 한계를 보였다. 제미나이 1.5 플래시는 유명인사 인식에 실패했고, GPT-4o는 가장 낮은 78.6% 정확도를 보였다. 가장 주목할 점은 클로드 3.5 소네트가 가짜 썸네일 탐지 전용으로 개발된 CHECKER 시스템을 뛰어넘었다는 것이다. CHECKER의 F1 점수 0.7153에 비해 클로드는 0.7227을 기록했다.
문화 맞춤형 예시 활용해 이탈리아·브라질·파키스탄서 8%p 향상
연구팀은 AI에게 상황에 맞는 예시를 보여주는 방식으로 성능을 크게 향상시켰다. 이 방식은 분석할 동영상과 비슷한 예시를 자동으로 선택해 AI에게 보여주는 방법이다. 핵심 기술은 문장 간 유사성을 빠르게 분석하는 Sentence-BERT 기술이었다. 이 기술은 1만 개 문장 중 비슷한 내용을 찾는 시간을 65시간에서 5초로 단축시키면서도 정확성을 유지했다.
특히 이탈리아, 브라질, 파키스탄 등에서 초기 정확도가 80% 수준이었지만, 문화적 배경을 고려한 맞춤형 예시를 사용하자 최소 8% 이상 향상돼 모두 90%를 넘었다. 분야별로도 스포츠 95.3%, 게임 94.7%, 교육 93.9% 등 모든 주요 분야에서 90% 이상의 정확도를 달성했다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: 가짜 썸네일 탐지 AI는 어떻게 작동하나요?
A: AI는 동영상의 썸네일 이미지, 자막, 동영상 설명을 함께 분석해 실제 내용과 맞는지 판단합니다. 과장, 거짓 약속, 주제 불일치 등을 찾아내 가짜 썸네일을 구분합니다.
Q: 이 기술이 실제 유튜브에 적용될 수 있나요? A: 연구팀은 동영상 업로드 전 미리 검사하는 시스템으로 활용 가능하다고 밝혔습니다. 가짜 썸네일로 판정되면 사람이 검토하도록 보내거나 업로드를 일시 막아 수정을 요구할 수 있습니다.
Q: 왜 클로드 3.5 소네트가 다른 AI보다 성능이 좋았나요?
A: 클로드는 단계별로 분석하는 능력이 뛰어나 썸네일과 동영상 내용 간의 미묘한 차이도 잘 찾아냈습니다. 특히 감정적으로 자극적이거나 시각적으로 과장된 썸네일을 효과적으로 구분해냈습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: ThumbnailTruth: A Multi-Modal LLM Approach for Detecting Misleading YouTube Thumbnails Across Diverse Cultural Settings
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.