무료 오픈소스 AI 동영상 모델 모치-1(Mochi-1) 등장... "동작 구현에 집중"

생성형 AI 경쟁이 영상 분야로 확대되는 가운데, 젠모(Genmo)가 새로운 텍스트 투 비디오(Text-to-Video) AI 모델 ‘모치-1(Mochi-1)’을 공개했다. 톰스가이드(Tom’s Guide)에 따르면, 이번에 공개된 모치-1은 아파치 2.0(Apache 2.0) 라이선스 기반의 연구 프리뷰 버전이다.

하이퍼(Haiper)의 템플릿, 클링(Kling)과 하일루오(Hailuo)의 사실적 구현, 피카랩스(Pika Labs)와 드림머신(Dream Machine)의 특수효과 등 경쟁이 치열한 시장에서 젠모는 최신 기술의 오픈소스화에 주력했다.

젠모의 파라스 제인(Paras Jain) CEO는 “동영상에서 가장 흥미없는 것은 움직임이 없는 것이다. 많은 AI 동영상이 ‘라이브 포토’ 효과 수준에 머물렀지만, 우리는 동작 구현에 가장 많은 투자를 했다”고 설명했다.

모치-1은 100억 개의 파라미터를 가진 트랜스포머 디퓨전 모델로, 비동기 방식을 새롭게 도입했다. 제인 CEO는 “기존 방식과 달리 동영상만을 학습 데이터로 활용해 물리적 움직임을 더욱 정교하게 구현했다”며 “사용자의 프롬프트 의도를 정확히 파악하는 데도 많은 투자를 했다”고 강조했다.

현재 480p 해상도를 지원하는 모치-1은 향후 다양한 생성형 AI 플랫폼에서 활용될 예정이다. 같은 시기에 AI 기업 라임스도 오픈소스 모델 ‘알레그로’를 공개했는데, 알레그로는 초당 15프레임, 720p 해상도를, 모치-1은 초당 24프레임, 480p 해상도를 지원한다.

제인 CEO는 “오픈소스의 장점은 향후 누군가가 저사양 하드웨어에서도 구동 가능하도록 최적화할 수 있다는 점”이라며 “이를 통해 오프라인에서도 AI 동영상 제작이 가능해질 것”이라고 전망했다.

기사에 인용된 톰스가이드의 원문은 링크에서 확인할 수 있다.