• Home
  • News
  • 엔비디아, 혁신적인 AI 음성 생성 모델 ‘푸가토’ 공개… “모든 소리를 자유자재로 만든다”

엔비디아, 혁신적인 AI 음성 생성 모델 ‘푸가토’ 공개… “모든 소리를 자유자재로 만든다”

엔비디아, 혁신적인 AI 음성 생성 모델 '푸가토' 공개... "모든 소리를 자유자재로 만든다"
이미지출처: 엔비디아 블로그

음성·텍스트 입력만으로 무한한 소리를 만드는 AI

엔비디아(NVIDIA)가 텍스트와 오디오를 입력값으로 활용해 음악, 음성, 효과음을 자유자재로 생성할 수 있는 생성형 AI 모델 ‘푸가토(Fugatto)’를 공개했다. ‘기초 생성 오디오 트랜스포머 작품 1(Foundational Generative Audio Transformer Opus 1)’의 약자인 푸가토는 기존 AI 모델과 달리 텍스트 프롬프트만으로도 다양한 음향을 만들어낼 수 있다.

멀티 플래티넘 프로듀서이자 원테이크 오디오(One Take Audio)의 공동 설립자인 이도 즈미슬라니(Ido Zmishlany)는 “이것은 정말 놀랍다. 소리는 내게 영감이고, 음악을 만들게 하는 원동력이다. 스튜디오에서 즉석으로 완전히 새로운 소리를 만들어낼 수 있다는 것이 믿기지 않는다”고 말했다.

음악 제작부터 게임 음향까지… 폭넓은 활용성 갖춰

푸가토의 활용 범위는 매우 광범위하다. 음악 프로듀서들은 곡의 스타일과 악기를 빠르게 바꿔가며 작업할 수 있고, 광고 에이전시는 성우의 목소리 톤과 감정을 자유롭게 조절할 수 있다. 게임 개발자들은 게임 상황에 맞춰 실시간으로 새로운 음향을 생성할 수 있으며, 언어 학습 도구에서는 원하는 목소리로 교육 컨텐츠를 제작할 수 있다.

즈미슬라니는 “음악의 역사는 곧 기술의 역사다. 전기 기타가 록앤롤을 탄생시켰고, 샘플러의 등장으로 힙합이 태어났다”며 “AI와 함께 우리는 음악의 새로운 장을 쓰고 있다. 음악을 만드는 새로운 도구와 악기를 얻은 것이며, 이는 매우 흥미진진한 일”이라고 강조했다.

“상상하는 모든 소리를 만들어낸다”

엔비디아의 응용 오디오 연구 매니저이자 푸가토 개발팀장인 라파엘 발레(Rafael Valle)는 “트럼펫이 개처럼 짖거나 색소폰이 고양이처럼 울도록 만들 수 있다”며 “사용자가 묘사할 수 있는 모든 소리를 만들어낼 수 있다”고 설명했다.

특히 푸가토는 ‘ComposableART’라는 기술을 사용해 훈련 과정에서 개별적으로만 보았던 지시사항들을 결합할 수 있다. 예를 들어, 프랑스 액센트로 슬픈 감정을 담아 텍스트를 읽는 것과 같은 복합적인 작업이 가능하다.

25억 개의 매개변수로 구현한 강력한 성능

푸가토는 25억 개의 매개변수를 사용하며, 32개의 엔비디아 H100 텐서 코어 GPU가 탑재된 DGX 시스템에서 학습됐다. 개발팀은 인도, 브라질, 중국, 요르단, 한국 등 다양한 국적의 연구진으로 구성됐으며, 이러한 다국적 협업을 통해 다양한 액센트와 다국어 기능을 강화했다.

특히 시간에 따른 보간(temporal interpolation) 기능을 통해 천둥소리가 서서히 멀어지는 빗소리나, 천둥소리가 새소리로 바뀌는 등 시간에 따라 변화하는 사운드스케이프를 만들어낼 수 있다. 이는 기존 모델들이 학습 데이터만을 재현할 수 있는 것과 달리, 전혀 새로운 소리의 조합을 만들어낼 수 있다는 점에서 혁신적이다.

푸가토에 대한 자세한 내용은 엔비디아 블로그에서 확인할 수 있다.

AI Matters_banner_article_bottom



엔비디아, 혁신적인 AI 음성 생성 모델 ‘푸가토’ 공개… “모든 소리를 자유자재로 만든다” – AI 매터스 l AI Matters