중국 알리바바가 인물 사진 한 장과 음성 파일만으로 실제처럼 말하고 노래하는 디지털 휴먼을 만들 수 있는 인공지능(AI) 모델을 오픈소스로 공개했다. 알리바바는 27일(한국 시간) 스피치-투-비디오(Speech-to-Video) 모델인 ‘완2.2-S2V(Wan2.2-S2V)’를 선보였다고 발표했다. 이 모델은 정지된 인물 사진을 영화 수준의 아바타로 구현해 자연스럽게 대화하고 연기할 수 있게 한다.
완2.2-S2V는 얼굴 클로즈업부터 상반신, 전신까지 다양한 화면 구도의 캐릭터 영상을 제작할 수 있다. 사용자가 원하는 동작과 배경을 프롬프트로 지시하면 자동으로 생성해 의도한 스토리를 정밀하게 구현한다. 이번 모델의 핵심은 첨단 음성 기반 애니메이션 기술이다. 자연스러운 대화부터 음악 공연까지 사실감 있는 캐릭터 연기를 구현하며, 한 장면에서 여러 캐릭터를 매끄럽게 처리한다. 만화풍과 동물, 스타일화된 캐릭터 등 다양한 아바타 제작도 지원한다.
완2.2-S2V는 기존 토킹 헤드(talking head) 애니메이션을 뛰어넘는 혁신적 기술을 적용했다. 텍스트 기반 전체 동작과 음성 기반 세부 움직임을 결합해 복잡한 상황에서도 자연스럽고 풍부한 캐릭터 동작을 구현한다. 특히 혁신적인 프레임 처리 기술로 긴 영상도 안정적으로 생성할 수 있다. 임의 길이의 이전 프레임들을 하나의 압축된 잠재 표현으로 압축해 연산 부담을 크게 줄였다. 이를 통해 장편 애니메이션 콘텐츠 제작의 핵심 과제를 해결했다.
알리바바 연구팀은 영화·방송 제작 환경에 맞춘 대규모 음성·영상 데이터셋을 구축하고 다중 해상도 학습 기법을 적용했다. 이로써 세로형 숏폼 콘텐츠부터 전통적인 가로 영화·TV 영상까지 다양한 형식을 유연하게 지원한다.
완2.2-S2V 모델은 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 모델스코프(ModelScope)에서 무료로 다운로드할 수 있다. 알리바바는 올해 2월 완2.1 모델과 7월 완2.2 모델을 공개한 바 있으며, 현재까지 완 시리즈는 허깅페이스와 모델스코프에서 690만 회 이상 다운로드됐다.
해당 모델은 깃허브에서 사용 가능하다.
이미지 출처: 허깅페이스