• Home
  • News
  • CogVideoX, 텍스트 기반 동영상 생성의 새로운 기술 공개

CogVideoX, 텍스트 기반 동영상 생성의 새로운 기술 공개

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
이미지 출처: 미드저니 생성

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

인공지능(AI) 기술이 급속도로 발전하면서 텍스트를 기반으로 한 동영상 생성 기술도 빠르게 진화하고 있다. 최근 공개된 CogVideoX는 이 분야에서 주목할 만한 성과를 보여주고 있다. 이 모델은 기존 기술의 한계를 뛰어넘어 더욱 정교하고 일관된 동영상을 생성할 수 있는 능력을 선보이고 있다.

CogVideoX의 핵심은 3D 변분 오토인코더(Variational Autoencoder, VAE)와 전문가 트랜스포머(Expert Transformer) 구조에 있다. 3D VAE는 동영상 데이터를 공간적, 시간적으로 압축하여 효율적으로 처리할 수 있게 해준다. 이는 기존의 2D VAE가 각 프레임을 개별적으로 처리하던 방식에서 벗어나, 동영상 전체의 연속성을 보장하는 혁신적인 접근법이다. 전문가 트랜스포머는 텍스트와 동영상 간의 정렬을 개선하기 위해 설계되었다. 이 구조는 두 모달리티 간의 심층적인 융합을 가능하게 하여, 생성된 동영상이 입력된 텍스트의 의도를 더욱 정확하게 반영할 수 있도록 한다.

“3D 인과 VAE로 시공간 압축”

CogVideoX 팀은 동영상 데이터를 효율적으로 모델링하기 위해 3D 인과 VAE(Causal VAE)를 개발했다. 이 VAE는 동영상을 공간적으로 8×8, 시간적으로 4배 압축하여 총 256배의 압축률을 달성한다. 3D 인과 컨볼루션을 사용하여 미래 정보가 현재나 과거 예측에 영향을 미치지 않도록 했다. 이는 픽셀 공간에서 동영상을 1차원 시퀀스로 펼치는 것에 비해 시퀀스 길이와 관련 학습 계산량을 크게 줄이는 효과가 있다.

VAE의 학습은 두 단계로 진행된다. 먼저 짧은 동영상으로 학습한 후, 긴 동영상에 대해 문맥 병렬(context parallel) 방식으로 미세 조정한다. 학습에는 L2 손실, LPIPS 지각 손실, 3D 판별자의 GAN 손실을 결합한 가중치 조합을 사용한다. 이러한 접근 방식은 동영상의 시간적 일관성을 유지하면서도 효율적인 압축을 가능하게 한다.

“전문가 트랜스포머로 텍스트-동영상 융합”

CogVideoX의 또 다른 핵심 요소인 전문가 트랜스포머는 텍스트와 동영상 데이터를 효과적으로 처리하기 위해 특별히 설계되었다. 이 구조는 패칭(patching), 위치 임베딩, 어텐션 전략 등을 포함한다. 3D 회전 위치 임베딩(Rotary Position Embedding, RoPE)을 도입하여 동영상 데이터의 3차원 특성을 잘 포착할 수 있게 했다. 실험 결과, 3D RoPE는 사인파 절대 위치 인코딩에 비해 훨씬 빠른 수렴 속도를 보였다.

전문가 트랜스포머 블록에서는 전문가 적응형 레이어 정규화(Expert Adaptive Layernorm)를 사용하여 텍스트와 동영상 모달리티를 독립적으로 처리한다. 이는 두 모달리티의 특징 공간 정렬을 촉진하면서도 추가 매개변수를 최소화한다. 또한 3D 전체 어텐션(Full Attention)을 도입하여 시공간적으로 복잡한 동작을 더 잘 포착할 수 있게 했다. 이는 기존의 분리된 공간 및 시간 어텐션에 비해 큰 동작을 일관되게 유지하는 데 더 효과적이다.

“혁신적 학습 기법으로 성능 향상”

CogVideoX 팀은 모델의 성능과 안정성을 높이기 위해 여러 혁신적인 학습 기법을 도입했다. 먼저 혼합 지속 시간 학습(mixed-duration training)을 통해 다양한 길이의 동영상을 함께 학습할 수 있게 했다. 이를 위해 ‘프레임 팩(Frame Pack)’ 기법을 개발하여 서로 다른 길이의 동영상을 같은 배치에 넣을 수 있게 했다. 이 방식은 데이터를 최대한 활용하고 모델의 일반화 능력을 향상시키는 데 기여했다.

또한 해상도 진보적 학습(resolution progressive training)을 통해 저해상도 학습, 고해상도 학습, 고품질 동영상 미세 조정의 세 단계로 나누어 학습을 진행했다. 이 접근법은 다양한 해상도의 동영상을 효과적으로 활용하고, 전체적인 학습 시간을 단축하는 데 도움이 되었다. 특히 위치 코드의 외삽(extrapolation)을 통해 로컬 디테일을 더 잘 유지할 수 있었다.

명시적 균일 샘플링(Explicit Uniform Sampling) 기법의 도입은 학습 안정성 향상에 크게 기여했다. 이 방법은 확산 과정의 타임스텝을 더 균일하게 샘플링하여 손실의 큰 변동을 방지하고 수렴 속도를 높였다.

CogVideoX 팀은 고품질 동영상-텍스트 쌍을 생성하기 위한 독특한 데이터 처리 파이프라인도 개발했다. 이 과정에는 동영상 필터링과 재캡셔닝 방법이 포함되어 있다. 특히 CogVLM2-Caption이라는 엔드투엔드 동영상 이해 모델을 사용하여 동영상의 내용을 상세하고 정확하게 설명하는 캡션을 생성했다. 이는 CogVideoX의 학습 데이터 품질을 크게 향상시켰다.

CogVideoX의 성능은 자동화된 메트릭 평가와 인간 평가를 통해 검증되었다. VBench, Devil, ChronoMagic 등 다양한 평가 도구를 사용한 결과, CogVideoX는 기존의 공개 모델들을 대부분의 메트릭에서 능가하는 성능을 보여주었다. 특히 동적 품질과 시간 경과에 따른 변화 정도를 측정하는 GPT4o-MTScore에서 우수한 성능을 나타냈다.

인간 평가에서도 CogVideoX는 감각적 품질, 지시 따르기, 물리 시뮬레이션, 표지 품질 등 모든 측면에서 높은 점수를 받았다. 이는 모델이 생성한 동영상의 시각적 품질뿐만 아니라 내용의 일관성과 현실성도 뛰어남을 보여준다.

CogVideoX 팀은 현재 더 큰 규모의 모델을 학습시키고 있으며, 더 긴 시간의 고품질 동영상 생성을 목표로 하고 있다. 또한 복잡한 동적 요소를 더욱 정확하게 포착하고 동영상 생성의 품질을 더욱 높이기 위한 연구를 지속하고 있다.

CogVideoX의 개발은 텍스트 기반 동영상 생성 기술의 새로운 지평을 열었다. 이 기술은 영화 제작, 교육, 마케팅 등 다양한 분야에서 혁신적인 응용 가능성을 제시하고 있다. 앞으로 CogVideoX가 어떻게 발전하고 우리의 창작 방식을 변화시킬지 주목할 필요가 있다. 특히 더 긴 동영상 생성, 더 복잡한 장면 구성, 사용자 상호작용 개선 등의 과제가 남아있어, 이 분야의 지속적인 발전이 기대된다.

기사에 인용된 논문은 링크에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




CogVideoX, 텍스트 기반 동영상 생성의 새로운 기술 공개 – AI 매터스