• Home
  • AI Report
  • AI 동영상의 ‘진짜’ 실력은 누가, 어떻게 평가할까?

AI 동영상의 ‘진짜’ 실력은 누가, 어떻게 평가할까?

Generative AI: Differentiating disruptors from the disrupted
이미지출처: 이디오그램

Generative AI: Differentiating disruptors from the disrupted

AI 생성 동영상 평가의 필요성

최근 오픈AI의 소라(Sora)와 메타의 무비젠(MovieGen)과 같은 혁신적인 AI 동영상 생성 모델이 등장하면서, AI가 만드는 동영상의 품질을 어떻게 평가할 것인가에 대한 논의가 활발히 이루어지고 있다. UC Davis 연구진이 발표한 최신 연구에 따르면, AI 생성 동영상의 평가는 ‘인간의 인식’과 ‘인간의 의도’라는 두 가지 핵심 축을 중심으로 이루어져야 한다고 제안했다.

AI 생성 동영상 기술이 빠르게 발전하면서, 이 기술이 만들어내는 결과물의 품질을 객관적으로 평가할 수 있는 체계적인 방법론이 필요해졌다. 기존의 동영상 품질 평가는 주로 해상도, 프레임 속도, 압축 품질과 같은 기술적 지표에 초점을 맞추었다. 그러나 AI 생성 동영상의 경우, 물리적 법칙을 따르는 자연스러운 움직임, 시공간적 일관성, 사용자가 의도한 내용과의 일치성 등 더욱 복합적인 평가 기준이 요구된다.

AIGVE: 새로운 평가 프레임워크

연구진이 제안한 AIGVE는 크게 두 가지 측면에서 AI 생성 동영상을 평가한다. 첫 번째는 인간의 시각적 인식과의 부합성이다. 이는 동영상이 얼마나 인간의 자연스러운 시각 인식과 일치하는지를 평가하는 것으로, 전반적인 화질부터 시작해 움직임의 자연스러움, 시간에 따른 일관성, 현실 세계의 물리 법칙 준수 여부, 그리고 공간 구조의 안정성까지 포괄적으로 고려한다.

두 번째는 사용자 의도와의 부합성이다. 이는 생성된 동영상이 원래 의도한 바를 얼마나 잘 구현했는지를 평가하는 것으로, 입력된 텍스트 프롬프트와 생성된 동영상 간의 의미적 일치도를 중심으로 평가한다. 여기에는 사용자가 요청한 특정 행동이나 이벤트가 정확하게 구현되었는지, 원하는 스타일이나 분위기가 제대로 반영되었는지, 그리고 시간적 진행 순서가 의도대로 구현되었는지 등이 포함된다.

주목할 만한 평가 방법론

AIGVE는 크게 두 가지 주요 평가 방식을 제시한다. 첫째로 메트릭 컬렉션 평가에서는 VBench를 통해 16개의 세부 차원에서 동영상 품질을 평가하고, EvalCrafter로 시각적 품질과 움직임, 시간적 일관성을 종합적으로 분석하며, DOVER를 활용해 미학적 품질과 기술적 품질을 분리하여 평가한다.

두 번째 방식인 모델링 평가에서는 VideoScore가 대규모 비디오 피드백 데이터를 기반으로 평가를 수행하고, T2VQA가 텍스트와 비디오 간의 정렬성과 비디오 충실도를 통합적으로 평가하며, AIGC-VQA는 기술적 품질부터 미학적 품질, 비디오-텍스트 정렬성까지 종합적으로 평가한다. 특히 GPT-4와 같은 대규모 언어 모델을 활용한 평가 방식은 동영상 내용을 자연어로 이해하고 분석할 수 있어, 보다 직관적이고 설명 가능한 평가 결과를 제공할 수 있다는 장점이 있다.

평가를 위한 벤치마크 데이터셋

AIGVE의 발전을 위해 다양한 벤치마크 데이터셋이 구축되고 있다. 그중 대표적인 데이터셋으로 EvalCrafter를 들 수 있는데, 이는 2,500개의 동영상과 500개의 프롬프트로 구성된 포괄적인 평가 기준을 제공한다. 또한 VBench는 24개의 하위 카테고리에 걸쳐 1,746개의 프롬프트를 포함하고 있어, 다양한 상황에서의 AI 동영상 생성 능력을 평가할 수 있다.

더불어 T2VQA-DB는 1,000개의 텍스트 프롬프트에 대한 10,000개의 동영상을 포함하여 텍스트-비디오 정렬성 평가에 중점을 둔 데이터셋을 제공하고 있다. 특히 VIDEOPHY는 9,300개의 동영상을 통해 물리적 상식에 기반한 평가 기준을 제시하여, AI 생성 동영상이 현실 세계의 물리 법칙을 얼마나 잘 준수하는지 평가할 수 있게 한다. 이러한 다양한 데이터셋들은 AI 생성 동영상의 여러 측면을 종합적으로 평가할 수 있는 기준을 제공하고 있다.

향후 발전 방향과 과제

연구진은 AIGVE 분야의 주요 도전 과제들을 제시했다. 우선 최신 비전-언어 모델(VLM)들의 발전으로 동영상 콘텐츠와 텍스트 간의 관계를 더욱 정교하게 분석할 수 있게 되었는데, 이러한 모델들을 평가 프레임워크에 효과적으로 통합하는 것이 중요한 과제로 대두되고 있다.

또한 단순한 점수 부여를 넘어, 왜 그러한 평가가 이루어졌는지 설명할 수 있는 해석 가능한 평가 체계의 개발이 시급하다. 평가 결과의 투명성과 설명력을 높임으로써, 생성 모델의 개선 방향을 더 명확하게 제시할 수 있을 것이다.

더불어 AI 생성 동영상의 잠재적 오용을 방지하고, 편향성을 줄이며, 안전한 콘텐츠 생성을 보장하기 위한 평가 기준의 수립도 중요한 과제다. 이는 기술적 평가를 넘어 윤리적, 사회적 영향까지 고려하는 포괄적인 평가 체계의 필요성을 보여준다.

결론

AI 생성 동영상 평가는 아직 초기 단계에 있지만, AIGVE와 같은 체계적인 평가 프레임워크의 등장으로 객관적이고 종합적인 품질 평가가 가능해지고 있다. 향후 AI 동영상 생성 기술이 더욱 발전하고 활용 분야가 확대됨에 따라, 이러한 평가 체계의 중요성은 더욱 커질 것으로 전망된다.

특히 생성형 AI의 발전 속도가 빨라지는 만큼, 평가 방법론도 이에 발맞추어 지속적으로 발전해야 할 것이다. 인간의 인식과 의도에 부합하는 고품질 AI 생성 동영상을 만들기 위해서는, 정교하고 신뢰할 수 있는 평가 체계가 필수적이기 때문이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




AI 동영상의 ‘진짜’ 실력은 누가, 어떻게 평가할까? – AI 매터스