구글 딥마인드, 영상에 생명력을 불어넣을 V2A 공개

구글 딥마인드가 영상에 맞는 소리와 음향 효과를 자동으로 생성해주는 AI 기술, V2A(Video-to-Audio)를 공개했다. 이 기술은 영상 픽셀과 자연어 텍스트 프롬프트를 결합해 영상의 사운드트랙을 생성하며, Veo와 같은 비디오 생성 모델과 결합해 비디오의 캐릭터 및 톤과 일치하는 극적인 음악이나 사실적인 음향효과 또는 대화가 있는 장면을 만들 수 있다. 이 기술은 아카이브 자료, 과거 무성 영화 등 다양한 기존 영상에 적용 가능해 창작의 폭을 넓힐 수 있다.

오디오 프롬프트: 영화, 스릴러, 공포 영화, 음악, 긴장, 분위기, 콘크리트 위의 발자국

오디오 프롬프트: 귀여운 아기 공룡 짹짹 소리, 정글 분위기, 달걀 깨기

오디오 프롬프트: 물속에서 맥동하는 해파리, 해양 생물, 바다

뛰어난 크리에이티브 제어

V2A 기술은 어떤 비디오 입력에도 무한한 수의 사운드트랙을 생성할 수 있다. 사용자는 원하는 소리를 강조하는 ‘포지티브 프롬프트’나 원하지 않는 소리를 배제하는 ‘네거티브 프롬프트’를 정의해 생성 결과를 조절할 수 있다. 이를 통해 다양한 사운드 옵션을 빠르게 실험하고 최적의 결과를 선택할 수 있다.

오디오 프롬프트: 우주선이 광활한 우주를 질주하고, 별들이 그 사이를 지나가고, 고속, 공상 과학

오디오 프롬프트: 미묘한 첼로 분위기

오디오 프롬프트: 우주선이 광활한 우주를 질주하고, 별들이 그 사이를 지나가고, 고속, 공상 과학

계속되는 추가 연구

구글의 연구가 기존의 비디오 투 오디오 솔루션과 다른 가장 큰 핵심은 이 모델이 원본 픽셀을 이해하고 텍스트 프롬프트는 옵션으로서 작용한다는 점이라고 강조했다. 또한 시스템은 생성된 사운드와 비디오를 일치시키기 위한 수작업이 필요 없다. 아직은 해결해야 할 여러 한계가 있기 때문에 구글은 추가 연구를 진행하고 있다고 밝혔다. 오디오의 품질은 비디오의 품질에 따라 달라지기 때문에 이 부분을 위한 개선과 함께 음성이 포함된 동영상의 립싱크 문제도 개선하고 있다.

자세한 내용은 DeepMind 블로그에서 확인할 수 있습니다.