• Home
  • AI Report
  • 구글, AI가 만든 가짜 영상 탐지하는 ‘유나이트’ 모델 개발

구글, AI가 만든 가짜 영상 탐지하는 ‘유나이트’ 모델 개발

Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content
이미지출처: 이디오그램 생성 이미지 편집

Towards a Universal Synthetic Video Detector
: From Face or Background Manipulations to Fully AI-Generated Content



다양한 유형의 AI 생성 영상을 탐지하는 유나이트

구글 연구팀이 AI가 생성한 콘텐츠를 탐지하는 기술에 대한 연구 논문을 발표했다. 기존의 딥페이크 탐지 기술들은 대부분 얼굴 조작이나 립싱크와 같은 특정 영역에만 초점을 맞추고 있었다. 하지만 최근 텍스트로 영상을 생성하는 T2V(Text-to-Video)나 이미지로 영상을 생성하는 I2V(Image-to-Video) 기술이 발전하면서, 전체 영상을 AI로 생성하거나 배경을 자연스럽게 조작하는 것이 가능해졌다. 이에 따라 더 포괄적인 탐지 방법의 필요성이 대두되었다.

구글 연구팀이 개발한 ‘유나이트(UNITE: Universal Network for Identifying Tampered and synthEtic videos)’는 얼굴 조작뿐만 아니라 배경 조작, AI 생성 영상 등 모든 유형의 가짜 영상을 탐지할 수 있다. 특히 기존 도구들과 달리 영상 속에 사람 얼굴이 없어도 분석이 가능하다는 것이 큰 특징이다.

Towards a Universal Synthetic Video Detector From Face or Background Manipulations to Fully AI-Generated Content



피사체 아닌 영상 내 주변 환경까지 고려해 정확도 향상

연구팀은 도메인 격차를 해소하기 위해 ‘SigLIP-So400M’ 기반 모델을 활용해 도메인에 구애받지 않는 특징을 추출했다. 또한 ‘주의-다양성(Attention-Diversity)’ 손실 함수를 도입해 모델이 영상의 다양한 공간적 영역에 집중할 수 있도록 했다. 이는 얼굴에만 집중하던 기존 방식의 한계를 극복한 혁신적인 접근법이다.

얼굴 조작은 95% 이상, 배경 조작은 100% 탐지

유나이트는 다양한 데이터셋에서 우수한 성능을 입증했다. 얼굴 조작을 탐지하는 CelebDF 데이터셋에서는 95.11%의 정확도를 보였으며, 배경 조작을 탐지하는 AVID 데이터셋에서는 100%의 정확도를 달성했다. AI로 생성된 영상을 탐지하는 DeMamba 데이터셋에서도 87.12%의 높은 정확도를 보였다. 실제 환경에서의 성능도 입증되었는데, 뉴욕타임스의 딥페이크 퀴즈에서 10개의 영상 중 8개를 정확히 판별하는 성과를 거두었다.

Towards a Universal Synthetic Video Detector From Face or Background Manipulations to Fully AI-Generated Content



전체와 부분 AI 생성 여부 구분까지 가능해

유나이트는 영상을 실제 영상, 부분적으로 조작된 영상, AI로 완전히 생성된 영상으로 분류할 수 있다. 이러한 세부 분류는 블랙박스 모델에 설명 가능성을 더해준다. 특히 선거와 같은 중요한 시기에 증가하는 허위정보 탐지에 유용할 것으로 기대된다. 기존 도구들이 얼굴이 있는 영상만 분석할 수 있었던 것과 달리, 유나이트는 모든 종류의 가짜 영상을 탐지할 수 있어 더욱 효과적인 대응이 가능하다.

지속적인 성능 개선

연구팀은 다양한 실험을 통해 모델의 최적 성능을 탐색했다. 프레임 수에 따른 성능을 평가하기 위해 1프레임부터 64프레임까지 테스트를 진행했으며, 트랜스포머의 최적 깊이를 찾기 위해 2개에서 8개까지의 인코더 블록을 실험한 결과 4개가 가장 효과적임을 확인했다. 또한 CE(Cross-Entropy)와 AD(Attention-Diversity) 손실 함수의 최적 조합을 도출하여 모델의 성능을 극대화했다.

유나이트는 기존의 얼굴 중심 탐지 방식에서 벗어나 더 포괄적이고 강력한 가짜 영상 탐지를 가능하게 했다. 특히 주의-다양성 손실 함수의 도입으로 얼굴 영역을 넘어선 다양한 조작을 탐지할 수 있게 되었다. 이는 진화하는 AI 생성 기술에 대응할 수 있는 중요한 진전으로 평가된다.


해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 

AI Matters_banner_article_bottom



구글, AI가 만든 가짜 영상 탐지하는 ‘유나이트’ 모델 개발 – AI 매터스 l AI Matters