텍스트-음성 변환(TTS) 기술 선도업체인 일레븐랩스(ElevenLabs)가 자사의 최신 음성 생성 모델인 일레븐 v3 알파(Eleven v3 alpha) 버전을 API를 통해 개발자들에게 공개했다고 20일(현지 시간) 발표했다. 일레븐랩스에 따르면, 새로운 v3 알파 버전은 기존 모델 대비 표현력과 제어 기능, 다국어 지원 능력을 크게 향상시켰다. 특히 무제한 화자를 지원하는 대화 모드, 70개 이상 언어 지원, 오디오 태그를 활용한 향상된 음성 및 감정 제어 기능이 핵심 특징이다.
일레븐랩스는 “이번 기능들을 통해 개발자들이 어떤 용도에든 생생하고 감정이 풍부한 음성 경험을 만들 수 있게 됐다”고 설명했다. 특히 대화 모드에서는 맥락에 따른 말 끊김, 어조 변화, 감정적 신호를 처리하며 현실적인 다중 화자 대화를 생성할 수 있다. 이번 업데이트는 미디어·엔터테인먼트, 동영상, 비디오 게임, 오디오북, 미디어 도구 분야에서 활동하는 개발자들에게 새로운 수준의 표현력을 제공한다는 평가다.
일레븐랩스는 지난 몇 주 동안 헤이젠(HeyGen), 포(Poe by Quora), 캡션스(Captions) 등 주요 기업들과 협력해 v3 알파 버전을 이들의 제품에 통합했다고 밝혔다.
헤이젠은 일레븐 v3 알파를 활용해 다이내믹하고 다국어 음성 생성이 가능한 아바타 비디오 제작 워크플로우를 강화하고 있다. 퀘라의 포 플랫폼에서는 일레븐랩스의 모델이 가장 많이 사용되는 오디오 생성 모델로 자리잡았으며, 이제 포의 스피크 버튼이 일레븐랩스 v3를 사용해 텍스트 응답을 오디오로 변환한다.
캡션스는 자사의 AI 비디오 플랫폼인 미라지 스튜디오(Mirage Studio)에 일레븐 v3 알파를 통합해 마케터와 팀들이 똑같이 다이내믹하고 표현력 있는 음성을 가진 배우들을 생성할 수 있도록 했다.
일레븐랩스는 v3 알파 버전의 성능을 보여주는 두 가지 데모를 공개했다. 첫 번째는 축구 중계 상황을 재현한 것으로, 흥분한 어조와 함께 “경기장이 기대감으로 들끓고 있다”, “아름다운 발재간이다”, “경기장에서 순수한 마법이다”와 같은 실감 나는 중계를 들려준다.
두 번째 데모는 일상적인 대화를 재현한 것으로, “진짜 농담이 아니라 이 TTS를 써봤는데 이상하게 감동적이었어. 그냥 ‘안녕’이라고 말했는데 눈물이 날 뻔했다”며 웃는 소리와 함께 자연스러운 감정 표현을 보여준다.
개발자들은 일레븐랩스 공식 문서를 통해 v3 알파 모델에 대한 상세 정보와 텍스트-대화 API 사용법, 프롬프팅 가이드를 확인할 수 있다. 또한 일레븐랩스 웹사이트에서 무료 가입을 통해 바로 서비스를 이용할 수 있다.
해당 기사의 원문은 일레븐랩스 블로그에서 확인 가능하다.
이미지 출처: 일레븐랩스