Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
비용의 1/10로 상용급 비디오 생성 모델 구현… 효율성 혁신 이루다
2024년 2월 오픈AI(OpenAI)의 소라(Sora) 출시 이후, 수많은 오픈소스와 독점 모델들이 ‘소라급’ 품질을 목표로 경쟁하고 있다. 하지만 비디오 품질이 향상될수록 모델 크기, 데이터 양, 컴퓨팅 자원의 소모가 급격히 증가하는 추세다. 대형 언어 모델(LLM)의 성공 이후 비디오 생성 분야에서도 유사한 기술과 원칙이 적용되며 ‘대규모 확장’이 주요 흐름이 되었다.
그러나 HPC-AI 테크(HPC-AI Tech)의 오픈소라 팀은 비용을 철저히 관리하면서도 최고 수준의 비디오 생성 모델 개발이 가능함을 입증했다. 오픈소라 연구팀이 공개한 논문에 따르면, 단 20만 달러라는 경이로운 비용으로 상용급 비디오 생성 모델인 ‘오픈소라 2.0(Open-Sora 2.0)’을 훈련시키는 데 성공한 것이다. 이는 무비젠(MovieGen)이나 스텝비디오-T2V(Step-Video-T2V) 같은 유사 모델 대비 5~10배 낮은 비용이다.
“데이터 선별, 모델 아키텍처, 훈련 전략, 시스템 최적화 등 모든 영역의 효율성을 극대화했습니다.” 오픈소라 팀은 이러한 효율성 향상을 통해 인간 평가 결과와 VBench 점수에서 오픈소스 훈윈비디오(HunyuanVideo)와 클로즈소스 런웨이 젠-3 알파(Runway Gen-3 Alpha) 등 글로벌 선도 비디오 생성 모델과 견줄 만한 성능을 달성했다고 밝혔다.

70% 이상 영상에 75단어 초과 상세 설명 포함, 효율적 학습 환경 구축
오픈소라 2.0의 성공 비결 중 하나는 ‘계층형 데이터 필터링 시스템’이다. 이 시스템은 단계적으로 필터 강도를 높여가며 더 작지만 순도와 품질이 높은 데이터셋을 구축하는 방식으로 작동한다.
먼저 전처리 단계에서는 원본 비디오를 훈련 가능한 짧은 클립으로 변환한다. 2초 미만 길이, 비트픽셀(bpp) 0.02 이하, 프레임 속도 16 미만, 비율이 1/3~3 범위 밖인 비디오 등 부적합한 파일을 제거한다. 이후 FFmpeg의 libavfilter를 활용해 장면 점수를 계산하고 변화가 큰 지점을 기준으로 비디오를 나눈다.
다음으로 점수 기반 필터링 단계에서는 여러 보완적 필터를 적용한다. CLIP+MLP 미적 점수 예측기로 심미적 품질을 평가하고, FFmpeg의 VMAF 모션 점수로 동작 강도를 측정한다. 또한 OpenCV의 라플라시안 연산자로 흐림 상태를 검출하고, PaddleOCR을 이용해 과도한 텍스트가 포함된 이미지를 제거한다.
이렇게 구축한 데이터셋의 70% 이상이 75단어를 초과하는 상세한 설명을 포함하고 있으며, 대부분의 영상이 4.5~5.5 사이의 미적 점수를 가지고 있다. 이는 모델 훈련에 이상적인 중간 수준의 시각적 매력을 제공한다.
토큰 수 75% 감소시켜 훈련 속도 5.2배, 추론 속도 10배 향상
오픈소라 2.0은 효율적인 비디오 생성을 위해 ‘비디오 DC-AE’라는 독창적인 오토인코더 아키텍처를 개발했다. 기존 훈윈비디오 VAE가 4×8×8의 압축률로 8초 길이의 고해상도(1280×720) 비디오를 32×160×90의 잠재 표현으로 변환했다면, 비디오 DC-AE는 공간 압축률을 32까지 증가시켜 토큰 수를 크게 줄였다.
이 비디오 DC-AE는 세 개의 잔차 블록과 세 개의 EfficientViT 블록으로 구성된 인코더와 대칭 구조의 디코더를 갖추고 있다. 2D 연산을 3D 연산으로 대체하고, 인코더 마지막 두 다운샘플링 블록과 디코더 첫 두 업샘플링 블록에 시간적 압축을 적용해 효과적으로 시간 정보를 처리한다.
이러한 고압축 오토인코더 덕분에 훈련 처리량이 5.2배 증가했고, 추론 속도는 10배 이상 향상되었다. 이는 고해상도 비디오 생성에서 특히 유리하게 작용했다.
무비젠 대비 92% 절감… 저해상도 훈련 후 고해상도 미세조정 효과적
오픈소라 팀은 20만 달러라는 제한된 예산 내에서 상용급 비디오 생성 모델을 개발하기 위해 여러 효율적인 훈련 전략을 채택했다. 우선, 이미지 데이터셋에서의 사전 훈련이 비디오 모델 훈련을 크게 가속화할 수 있다는 연구 결과를 바탕으로, 처음부터 이미지 모델을 훈련시키는 대신 오픈소스 솔루션인 Flux를 활용했다. 또한 PixArt의 효율적인 이미지 훈련 전략에서 영감을 받아, 대규모 데이터셋에서 고품질 하위 집합을 선별해 훈련 효율성을 크게 향상시켰다.
비디오 모션 학습에 있어서는 먼저 256px 해상도 비디오로 훈련하여 다양한 모션 패턴을 효율적으로 학습한 후, 고해상도 미세 조정을 통해 지각적 품질을 개선했다. 그리고 256px에서 768px로의 모델 적응이 텍스트-비디오 방식보다 이미지-비디오 방식에서 더 효율적임을 발견하고, 이미지를 조건으로 하는 모델을 우선적으로 훈련했다. 이러한 전략들을 통해 오픈소라 2.0은 무비젠이나 스텝비디오-T2V 같은 경쟁 모델의 약 5~10분의 1 비용으로 유사한 품질의 모델을 훈련시키는 데 성공했다.
모션 점수 1~7 조절과 동적 가이던스로 완벽한 일관성
오픈소라 2.0은 이미지-비디오 변환에 특화된 조건 제어 시스템을 갖추고 있다. 이미지나 비디오 조건을 추가 채널로 연결하는 방식으로 속도 예측 작업을 일관되게 유지한다. 또한 동적 이미지 가이던스 스케일링 전략을 통해 비디오 끝 부분의 프레임에서도 일관성을 유지할 수 있게 했다.
모션 강도 제어도 주목할 만한 기능이다. 데이터 전처리에서 얻은 모션 점수를 캡션에 추가하여 생성된 비디오의 동적 수준을 효과적으로 제어할 수 있다. 장면에 따라 최소한의 움직임만 있는 고충실도 비디오나 상당한 움직임이 있는 역동적인 비디오를 사용자가 선택할 수 있다. 시스템 최적화 측면에서는 ColossalAI를 사용한 병렬 훈련 시스템을 구축했다. 141GB 메모리를 갖춘 H200 GPU를 활용해 더 효과적인 데이터 병렬 처리와 선택적 활성화 체크포인팅을 적용했다. 또한 PyTorch 컴파일과 Triton 커널을 활용해 훈련 효율성을 가속화했다.
프롬프트 충실도 테스트에서 런웨이 젠-3 알파 능가
오픈소라 2.0의 성능을 평가하기 위해 100개의 텍스트 프롬프트를 사용해 비디오를 생성하고, 10명의 전문 평가자가 시각적 품질, 프롬프트 충실도, 모션 품질 세 가지 기준으로 블라인드 평가를 진행했다.
평가 결과 오픈소라 2.0은 런웨이 젠-3 알파, 루마 레이2(Luma Ray2), 비두-1.5(Vidu-1.5), 하이루오 T2V-01-디렉터(Hailuo T2V-01-Director), 훈윈비디오 등 주요 비디오 생성 모델과 비교했을 때 여러 측면에서 우수한 성능을 보였다. 또한 VBench 평가에서도 오픈소라 1.2에서 2.0으로의 상당한 발전을 확인할 수 있었다. 오픈AI의 소라와의 성능 격차가 4.52%에서 0.69%로 줄어들어 비디오 생성 품질에서 상당한 진전을 이루었음을 보여주었다.
완전 오픈소스로 배포된 768×768 해상도 5초 영상 생성 모델
오픈소라 2.0은 데이터 선별, 모델 아키텍처, 훈련 전략, 시스템 최적화 등의 면밀한 조정을 통해 고품질 비디오 생성 모델이 매우 통제된 비용으로 개발 가능함을 보여주었다. 이 모델은 768×768 픽셀 해상도에서 최대 5초 길이의 비디오를 생성할 수 있다.
그러나 비디오 생성 분야에는 여전히 해결해야 할 과제가 남아 있다. 깊은 압축 비디오 VAE 기술은 아직 충분히 탐구되지 않았으며, 압축률을 공격적으로 높이면 재구성 품질 손실과 적응 어려움이 발생한다. 또한 확산 모델은 객체 왜곡이나 비자연스러운 물리 효과 같은 예측 불가능한 아티팩트를 생성하기도 한다.
오픈소라 팀은 오픈소라 2.0을 완전히 오픈소스로 공개함으로써 비디오 생성 기술에 대한 접근을 민주화하고, 넓은 콘텐츠 제작 혁신과 창의성을 촉진하기를 희망한다. 이를 통해 비디오 생성 분야에서 더 많은 발전이 이루어질 것으로 기대된다.
FAQ
Q: 오픈소라 2.0이 다른 비디오 생성 모델보다 비용 효율적인 이유는 무엇인가요?
A: 오픈소라 2.0은 데이터 선별, 효율적인 비디오 압축 기술(비디오 DC-AE), 단계적 훈련 전략, 시스템 최적화 등을 종합적으로 적용했기 때문입니다. 특히 고압축 오토인코더를 통해 토큰 수를 크게 줄여 계산 효율성을 높였고, 오픈소스 이미지 모델을 활용해 처음부터 훈련하는 비용을 절감했습니다.
Q: AI 비디오 생성 모델에서 ‘모션 점수’란 무엇이며 어떤 역할을 하나요?
A: 모션 점수는 비디오의 동적 수준을 정량화한 값으로, 오픈소라 2.0에서는 FFmpeg의 VMAF 모션 점수를 사용합니다. 이 점수를 캡션에 추가함으로써 사용자가 생성된 비디오의 움직임 강도를 제어할 수 있게 해줍니다. 낮은 모션 점수는 최소한의 움직임이 있는 안정적인 비디오를, 높은 점수는 더 역동적인 비디오를 생성합니다.
Q: 고해상도 비디오 생성에서 ‘이미지-비디오’ 접근 방식이 왜 더 효율적인가요?
A: 텍스트-비디오 방식보다 이미지-비디오 방식이 해상도 적응에 더 효율적인 이유는, 이미지를 조건으로 사용하면 모델이 모션 생성에 더 집중할 수 있기 때문입니다. 저해상도 훈련 중에 이미 잘 학습된 이 능력은 고해상도로 전환할 때 큰 이점이 됩니다. 오픈소라 2.0은 이 접근법을 활용해 텍스트 프롬프트에서 먼저 이미지를 생성한 다음, 그 이미지를 시작 프레임으로 사용해 비디오를 합성합니다..
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: Open-Sora
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기