구글 딥마인드, 차세대 AI 오디오 생성 기술 공개...2분 분량 대화 3초 만에 생성

AI 오디오 생성 기술의 진화

구글 딥마인드(Google DeepMind)가 AI 기반의 혁신적인 오디오 생성 기술을 공개했다. 새로운 기술은 자연스러운 다중 화자 대화를 실시간보다 40배 빠른 속도로 생성할 수 있다. 구글 딥마인드 블로그에 따르면, 새로운 음성 생성 기술은 대화 스크립트와 화자 표시만으로 2분 분량의 자연스러운 대화를 3초 만에 생성할 수 있다. 이는 단일 TPU(Tensor Processing Unit) v5e 칩으로 처리되며, 자연스러움과 음향 품질이 크게 개선됐다.

대규모 학습 데이터로 자연스러운 대화 구현

연구팀은 오디오를 초당 600비트의 낮은 속도로 압축하면서도 고품질을 유지할 수 있는 효율적인 음성 코덱을 개발했다. 이 코덱은 계층적 구조를 가진 토큰을 생성하는데, 첫 번째 토큰은 음성과 음운 정보를, 마지막 토큰은 세밀한 음향 세부사항을 담고 있다.

구글 딥마인드는 수십만 시간 분량의 음성 데이터로 모델을 사전 학습시켰으며, 고품질 대화 데이터로 미세 조정을 진행했다. 특히 성우들의 즉흥 대화와 실제 대화에서 나타나는 ‘음’, ‘아’ 같은 자연스러운 말더듬도 포함시켜 현실감을 높였다.

실용화 사례 확대

이 기술은 이미 구글의 다양한 서비스에 폭넓게 적용되고 있다. 제미니 라이브(Gemini Live)에서는 실시간 대화형 AI 서비스를 제공하고 있으며, 프로젝트 아스트라(Project Astra)를 통해 더욱 자연스러운 음성 상호작용을 구현하고 있다. 저니 보이시스(Journey Voices)에서는 다양한 음성 캐릭터를 생성하고 있으며, 유튜브에서는 자동 더빙 서비스를 제공하고 있다.

특히 주목할 만한 응용 사례로는 노트북LM(NotebookLM) 오디오 오버뷰 기능이 있다. 이 기능은 업로드된 문서를 두 명의 AI 호스트가 진행하는 생동감 있는 대화로 변환한다. AI 호스트들은 문서의 내용을 요약하고, 주제 간의 연결고리를 만들며, 자연스러운 농담까지 주고받는다. 또한 일루미네이트(Illuminate)는 연구 논문을 AI가 생성한 공식적인 토론 형태로 재구성하여 복잡한 학술 내용을 보다 이해하기 쉽게 전달한다.

안전성 확보 위한 워터마크 도입

구글은 AI 기술의 책임있는 개발과 배포를 위해 합성 오디오 콘텐츠에 신스ID(SynthID) 워터마크 기술을 적용하고 있다. 이는 AI가 생성한 오디오 콘텐츠의 출처를 명확히 하고 잠재적 오용을 방지하기 위한 조치다. 구글의 AI 윤리 원칙에 따라 도입된 이 기술은 AI 생성 콘텐츠의 투명성과 신뢰성을 높이는데 기여하고 있다.

향후 발전 방향

연구팀은 현재 AI 오디오 생성 기술의 다양한 개선 방향을 모색하고 있다. 우선적으로 모델의 유창성과 음향 품질을 더욱 향상시키는데 주력하고 있으며, 음성의 특성을 더욱 세밀하게 제어할 수 있는 기능을 개발 중이다. 또한 이러한 음성 기술을 비디오와 같은 다른 미디어 형식과 효과적으로 결합하는 방안도 연구하고 있다.

특히 제미니(Gemini) 모델 제품군과의 결합을 통해 더욱 폭넓은 응용 가능성을 탐구하고 있다. 이를 통해 교육 분야에서의 학습 경험을 개선하고, 다양한 콘텐츠에 대한 접근성을 높이는 등 음성 기반 기술의 새로운 가능성을 계속해서 확장해 나갈 계획이다.

이번에 공개된 AI 오디오 생성 기술은 자연스러운 음성 대화 생성이라는 기술적 진보를 보여줄 뿐만 아니라, 실용적인 응용 사례를 통해 AI 기술이 우리의 일상생활과 더욱 밀접하게 연결될 수 있음을 시사하고 있다.

AI 오디오 생성 기술에 대한 자세한 내용은 구글 딥마인드 블로그에서 확인할 수 있다.