Search

AI가 딥페이크 보고 “가짜”라고만 판단하는 시대 끝났다, GPT∙클로드∙제미나이가 토론해 진위 가린다

Contestable Multi-Agent Debate with Arena-based Argumentative Computation for Multimedia Verification
이미지 출처: https://ideogram.ai/

AI에게 의심스러운 영상을 보여주면 “가짜입니다”라는 한 줄짜리 답이 돌아온다. 문제는 그 한 줄을 누구도 의심하거나 반박할 수 없다는 점이다. 캐나다 뉴브런즈윅대(University of New Brunswick)와 베트남 호치민과학대(VNU-HCM), 베트남 FPT 소프트웨어(FPT Software) 공동 연구팀은 2026년 5월 발표한 논문에서 새로운 해법을 내놨다. GPT와 클로드, 제미나이 같은 최신 AI를 ‘논거를 만드는 토론자’로 동시에 투입할 수 있고, 사용자가 그 결과에 직접 끼어들어 결론을 바꿀 수 있게 한 ‘AI 다중 에이전트 검증’ 시스템이다.

AI 한 명의 판정이 가진 치명적 한계

AI 다중 에이전트 검증이란 여러 AI가 역할을 나눠 증거를 모으고 그것을 ‘지지·반박 논거’로 정리한 뒤, 그 논거들이 그래프 위에서 서로 영향을 주고받으며 진위 점수를 매기는 방식을 말한다. 기존 가짜뉴스 탐지 AI는 영상이나 사진을 입력받으면 ‘진짜’ 또는 ‘가짜’라는 결론만 한 줄로 던졌다. 연구팀은 논문에서 이런 구조가 “이질적인 증거를 하나의 결론으로 압축해 버려, 사용자가 어떤 근거가 결론을 떠받치고 어떤 근거가 반대하는지 들여다볼 수 없게 만든다”고 지적했다(논문 1쪽).

특히 단순한 진위 판단을 넘어 “이 게시물이 왜 올라왔는가” 같은 해석성 질문이 섞이면 한 줄짜리 답은 거의 쓸모가 없다. 연구팀이 제시한 대안의 이름은 ‘컨테스터블 AI(Contestable AI)’, 즉 사용자가 직접 반박할 수 있는 AI다.

라팔 전투기 영상으로 본 AI 3대 토론의 실제 결과

연구팀은 인도와 파키스탄 사이 군사 충돌인 ‘신두르 작전(Operation Sindoor)’ 관련 영상을 실제 시험 사례로 썼다. 영상에는 “이것은 신두르 작전에 투입된 인도 라팔(Rafale) 전투기다”라는 자막이 박혀 있었다. 한 줄 결론만 내는 기존 AI라면 자막을 보고 그대로 “인도 라팔이 맞다”고 답할 수 있는 상황이다.

그러나 연구팀이 만든 시스템에 같은 영상을 넣자, AI들은 자막에서 나온 지지 논거 하나와 별개로 두 개의 반박 논거를 더 발굴해 냈다. 토론자로는 제미나이 3.1 프로(Gemini 3.1 Pro), GPT 5.4, 클로드 오퍼스 4.6(Claude Opus 4.6)이 동시 투입됐다. 최종 점수는 1.00 만점에 0.18이 나왔다. 시스템은 “해당 영상이 인도 라팔이라는 주장은 근거에 의해 강하게 약화됐다”고 판정했고, ‘반박’으로 결론을 내렸다(논문 3쪽). 자막 하나에 속을 뻔한 결론을 다른 AI 두 대가 막아낸 셈이다.

그림1. A-QBAF 계산으로 도출한 ID01 검증셋 'who' 항목의 최종 결론.

그림1. A-QBAF 계산으로 도출한 ID01 검증셋 ‘who’ 항목의 최종 결론.



‘무엇·어디·언제·누구·왜·진위’ 여섯 질문으로 영상을 쪼개는 구조

연구팀이 만든 시스템은 영상을 한 번에 판단하지 않는다. 대신 영상을 여섯 개의 질문으로 분해한다. 무엇이 찍혔는가(what), 어디에서 찍혔는가(where), 언제 찍혔는가(when), 누가 등장하는가(who), 왜 올라왔는가(why), 진짜인가 조작인가(authenticity)다. 각 질문마다 별도의 작은 ‘논거 그래프’가 따로 만들어지고, AI는 그 안에서만 토론한다. 영상의 각 증거 조각, 예컨대 자막, 메타데이터, 역방향 이미지 검색 결과, 팩트체크 기사 등은 모두 ‘논거 카드’로 변환된다. 카드 한 장에는 출처, 짧은 설명, 그리고 신뢰도 점수가 함께 적힌다. 점수는 출처 신뢰도, 다른 출처와의 일치도, 다른 형식(텍스트·이미지·오디오) 간 일치도, 질문과의 관련성 네 가지를 종합해 매겨진다.

작아 보이는 차이지만, 이 구조 덕분에 AI는 “이 영상은 가짜”라는 한 마디 대신 “언제 부분은 확실하고, 누가 부분은 의심스럽다”는 식의 구간별 판정을 내놓을 수 있다. 한국 팩트체크 기관이 한 영상에 ‘일부 사실, 일부 거짓’ 판정을 내릴 때 쓰는 방식과 발상이 비슷하지만, AI가 그 과정을 그래프로 시각화해 보여준다는 점이 다르다.

사용자가 AI 결론을 직접 뒤집을 수 있는 ‘열린 판정’

이 시스템의 가장 큰 차별점은 사용자가 결론에 끼어들 수 있다는 점이다. 사용자는 AI가 만든 논거 하나하나를 들여다본 뒤 네 가지 행동 중 하나를 고를 수 있다. 그 논거를 받아들이거나, 거부하거나, 직접 수정하거나, 빠진 논거를 새로 추가하는 것이다. 사용자가 어떤 행동이든 하면 시스템은 그래프를 다시 계산해 결론 점수를 즉시 바꾼다(논문 3쪽). 또 AI는 점수가 0.45에서 0.55 사이로 애매한 경우 스스로 “불확실하다”고 인정하고 더 강한 AI 모델이나 사람 검토자에게 결정을 넘긴다.

이를 ‘불확실성 인식 에스컬레이션(Uncertainty-Aware Escalation)’이라 부른다. 한국에서 자주 벌어지는 가짜뉴스 논쟁, 예컨대 정치 영상이 진짜인지 합성인지를 두고 의견이 갈리는 상황을 떠올리면 이 구조의 의미가 분명해진다. 기존 AI는 “가짜”라고 단정한 뒤 입을 닫지만, 이 시스템은 “이 부분은 확실치 않으니 사람이 한 번 더 봐 달라”고 먼저 손을 든다.

AI 권위의 ‘민주화’가 시작될 가능성

이 논문이 시사하는 바는 AI의 역할이 ‘최종 판정자’에서 ‘토론 참여자’로 옮겨갈 가능성이다. 지금까지 AI 팩트체크 도구는 결론만 통보하는 일종의 판사 역할을 맡아 왔다. 그러나 연구팀이 보여준 구조에서는 AI가 자기 논거를 펼치고, 다른 AI가 반박하며, 사용자가 그 토론에 개입한다. AI가 신적 권위에서 내려와 토론장의 한 자리를 차지하는 셈이다.

다만 이 방식이 실제 뉴스룸과 플랫폼에 얼마나 빠르게 정착할지는 두고 볼 필요가 있다. AI 여러 대를 동시에 돌리는 비용, 사용자가 토론에 참여할 시간과 전문성을 갖췄는지 여부, 그리고 모든 토론 기록을 공개했을 때 오히려 가짜뉴스 제작자들이 어떤 논거가 잘 먹히는지 학습할 가능성 등 풀어야 할 숙제가 남아 있다. 가짜 콘텐츠가 일상이 된 시대에 AI 한 명의 판정만 믿고 따라가는 시기가 지나가고 있다는 신호인 것만은 분명하다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI 다중 에이전트 검증이 정확히 무엇인가요?
한 AI에게 “이 영상 진짜야?”라고 묻는 대신, 여러 AI가 역할을 나눠 증거를 모으고 그것을 지지·반박 ‘논거 카드’로 정리한 뒤, 그 논거들이 그래프 위에서 점수를 주고받아 결론을 내리는 방식입니다. 한 AI의 실수나 편향을 다른 AI와 논거 그래프가 함께 잡아낼 수 있다는 장점이 있습니다.

Q2. 일반인도 이 시스템을 직접 써볼 수 있나요?
연구팀이 코드를 깃허브(GitHub)에 공개해 두기는 했지만, 아직은 연구용 단계라 일반 사용자가 바로 쓰기는 어렵습니다. 다만 향후 팩트체크 사이트, 뉴스 플랫폼, 소셜미디어 콘텐츠 검수 도구에 비슷한 방식이 적용될 가능성이 큽니다.

Q3. 기존 팩트체크 사이트와는 어떻게 다른가요?
사람이 직접 영상을 분석해 ‘진짜·가짜·일부 사실’로 판정하는 기존 방식과 달리, AI가 영상을 자동으로 여섯 가지 질문으로 쪼개 각 질문별로 점수를 매깁니다. 또 사용자가 AI의 논거에 직접 반박하면 결론이 즉시 바뀐다는 점이 가장 큰 차이입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Contestable Multi-Agent Debate with Arena-based Argumentative Computation for Multimedia Verification (ICMR 2026)
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.