알리바바, AI 비디오 생성 모델 오픈소스로 공개

알리바바가 AI 커뮤니티 기여의 일환으로 비디오 생성 AI 모델을 무료로 공개했다. 26일(현지 시간) 발표된 보도자료에 따르면, 알리바바 클라우드가 26일 비디오 기반 모델인 톈이 완샹(Tongyi Wanxiang, Wan) 시리즈의 최신 버전 완2.1(Wan2.1)의 140억 파라미터와 13억 파라미터 버전 중 4개 모델을 오픈소스로 공개한다고 밝혔다.

T2V-14B, T2V-1.3B, I2V-14B-720P, I2V-14B-480P 등 4개 모델은 텍스트와 이미지 입력으로부터 고품질 이미지와 비디오를 생성하도록 설계됐다. 이 모델들은 알리바바 클라우드의 AI 모델 커뮤니티인 모델 스코프(Model Scope)와 협업 AI 플랫폼 허깅 페이스(Hugging Face)에서 다운로드할 수 있으며, 전 세계 학계, 연구자, 상업 기관이 접근할 수 있다.

올해 초 공개된 완2.1 시리즈는 중국어와 영어 모두에서 텍스트 효과를 지원하는 최초의 비디오 생성 모델이다. 이 모델은 복잡한 움직임을 정확하게 처리하고, 픽셀 품질을 향상시키며, 물리적 원칙을 준수하고, 명령 실행의 정밀도를 최적화하여 현실적인 시각 자료 생성에 뛰어나다. 명령 수행의 정밀성 덕분에 완2.1은 비디오 생성 모델을 위한 종합 벤치마크 스위트인 VBench 리더보드에서 최상위에 올랐다.

또한 허깅 페이스의 VBench 리더보드 상위 5개 모델 중 유일한 오픈소스 비디오 생성 모델이다. VBench에 따르면, 완2.1 시리즈는 86.22%의 종합 점수로 역동성, 공간 관계, 색상, 다중 객체 상호작용 등 주요 차원에서 선두를 달리고 있다.

T2V-14B 모델은 상당한 동작 역학을 갖춘 고품질 시각 자료 생성에 더 적합하다. 반면 T2V-1.3B 모델은 생성 품질과 컴퓨팅 파워 사이의 균형을 맞추어 2차 개발과 학술 연구를 수행하는 광범위한 개발자에게 이상적이다. 예를 들어, T2V-1.3B 모델을 사용하면 표준 개인용 노트북으로도 480p 해상도의 5초 길이 비디오를 약 4분 만에 생성할 수 있다. I2V-14B-720P와 I2V-14B-480P 모델은 텍스트-비디오 생성을 지원하고 이미지-비디오 기능을 제공한다. 동적 비디오 콘텐츠를 생성하기 위해 사용자는 간단한 텍스트 설명과 함께 단일 이미지만 입력하면 된다. 이 플랫폼은 어떤 차원의 일반 크기 이미지 입력도 지원한다.

해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지 출처: 알리바바 클라우드

기사는 클로드와 챗GPT를 활용해 작성되었습니다.