태그로 영화 대사도 생성 가능… 감정 표현 극대화한 '일레븐 v3 알파' 음성 AI 모델 출시

음성 AI 전문기업 일레븐랩스(ElevenLabs)가 가장 표현력이 뛰어난 텍스트 음성 변환(Text to Speech) 모델인 ‘Eleven v3 (alpha)’를 출시했다고 3일(현지 시간) 발표했다. 일레븐랩스에 따르면 새로운 v3 모델은 기존 모델들과 달리 한숨, 속삭임, 웃음과 같은 다양한 감정 표현을 자연스럽게 구현할 수 있는 혁신적인 기능을 제공한다. 특히 오디오 태그(Audio Tags) 기능을 통해 사용자가 원하는 감정과 톤을 직접 제어할 수 있다는 점이 가장 큰 특징이다.

새로운 v3 모델의 핵심 기능은 크게 세 가지로 구분된다. 첫째, 70개 이상의 언어를 지원하며 글로벌 시장 진출을 용이하게 한다. 둘째, 다중 화자 대화 모드를 통해 자연스러운 대화 흐름과 중단, 끼어들기 등을 구현할 수 있다. 셋째, 오디오 태그를 활용해 톤, 감정, 비언어적 반응을 세밀하게 조절할 수 있다.

오디오 태그 기능은 대괄호 형태로 텍스트에 직접 삽입하여 사용한다. 예를 들어 “[속삭이며] 뭔가 다가오고 있어… [한숨] 느껴져”와 같이 입력하면 해당 감정이 음성에 반영된다. 더 정교한 표현을 위해서는 “[기쁘게][소리치며] 해냈어! [웃음]”처럼 여러 태그를 조합할 수도 있다.

다중 화자 대화 기능은 새로운 텍스트 투 다이얼로그(Text to Dialogue) API 엔드포인트를 통해 구현된다. 사용자가 각 화자의 대사를 JSON 객체 배열로 제공하면 모델이 일관성 있고 자연스러운 대화 오디오 파일을 생성한다. 이 엔드포인트는 화자 간 전환, 감정 변화, 대화 중단 등을 자동으로 관리한다.

일레븐랩스는 v3 모델이 기존 모델들보다 더 많은 프롬프트 엔지니어링이 필요하다고 설명했다. 그러나 비디오 제작, 오디오북, 미디어 도구 분야에서 새로운 차원의 표현력을 제공한다고 강조했다. 실시간 대화형 애플리케이션에는 여전히 v2.5 터보(Turbo)나 플래시(Flash) 모델 사용을 권장한다고 덧붙였다.

가격 정책은 단계별로 차별화된다. UI 셀프서비스의 경우 6월 말까지 80% 할인된 가격으로 제공되며, 이는 기존 대비 약 5배 저렴한 수준이다. 30일 후에는 다국어 V2 모델과 동일한 가격으로 조정된다. API 셀프서비스와 엔터프라이즈 요금은 다국어 V2와 동일하게 유지된다.

현재 v3 모델은 일레븐랩스 웹사이트에서 이용할 수 있다. 퍼블릭 API 액세스는 곧 제공될 예정이며, 조기 액세스를 원하는 기업은 영업팀에 문의하면 된다. 모델 사용법은 일레븐랩스 UI에 로그인한 후 모델 선택기에서 ‘Eleven v3 (alpha)’를 선택하고 스크립트를 입력해 오디오를 생성하면 된다. 일레븐랩스는 몰입형 스토리텔링부터 영화 제작 파이프라인까지 다양한 분야에서 v3 모델이 활용되기를 기대한다고 밝혔다.

해당 모델에 대한 자세한 사항은 일레븐랩스 홈페이지에서 확인 가능하다.

이미지 출처: 일레븐랩스

태그로 영화 대사도 생성 가능… 감정 표현 극대화한 ‘일레븐 v3 알파’ 음성 AI 모델 출시

AI도 눈치 본다? 목표 알려주자, 답변 바꾸는 챗GPT의 비밀 “목적을 알려주지 말 것”

[AI 매터스 뉴스레터 #167] 회의록 쓰느라 회의에 집중 못한다면? AI가 답이다

구글 딥마인드의 제미나이, 수학·물리학 난제 해결하며 AI 연구 협력자로 진화

구글 AI 모델 불법 복제 시도 10만 건 돌파… 북한·중국 해커, 피싱에 본격 활용

“AI 비서가 하루종일 일한다”… 오픈AI, 장시간 작동 AI 만드는 법 공개

Highlight

챗GPT 프로, ‘90% 할인’… 카카오 선물하기 깜짝 특가

오픈클로 창시자, “앱의 80%가 사라질 것”

카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산

인스타그램 창업자, 개발자는 이제 코드 안 짠다…”앤트로픽 코드 100% AI가 작성”

앤트로픽 ‘코워크’, 윈도우 지원 시작… 맥OS와 동일 기능 제공