일레븐랩스, 세계에서 가장 정확한 음성인식 모델 '스크라이브' 공개... 99개 언어 지원

일레븐랩스(ElevenLabs)가 세계 최고 수준의 정확도를 자랑하는 음성 인식 모델 ‘스크라이브(Scribe)’를 출시했다. 26일(현지 시간) 일레븐랩스 블로그에 게시된 내용에 따르면, 이 모델은 실제 오디오 환경의 예측 불가능성을 처리할 수 있도록 설계되었으며, 99개 언어의 음성 전사를 지원한다. 스크라이브는 정밀도를 염두에 두고 개발되었다.

FLEURS와 Common Voice 벤치마크 테스트에서 99개 언어 전반에 걸쳐 제미니 2.0 플래시(Gemini 2.0 Flash), 위스퍼 라지 V3(Whisper Large V3), 딥그램 노바-3(Deepgram Nova-3)과 같은 선두 모델보다 일관되게 우수한 성능을 보였다. 회의 요약, 영화 자막, 심지어 노래 가사까지 스크라이브는 이탈리아어(98.7%), 영어(96.7%) 및 기타 97개 언어에서 가장 낮은 자동화된 전사 워드 에러 레이트(word error rate)를 제공한다.

스크라이브는 자동 음성 인식(ASR)을 보편적으로 접근 가능하게 만들었다. 특히 세르비아어, 광둥어, 말라얄람어와 같이 기존에 서비스가 미흡했던 언어에서 오류를 극적으로 줄였다. 경쟁 모델들이 이러한 언어에서 종종 40% 이상의 단어 오류율을 보이는 것과 대조적이다. 개발자들은 음성-텍스트 API를 통해 스크라이브를 오늘부터 바로 통합할 수 있다. 이를 통해 화자 구분(speaker diarization)과 단어 수준 타임스탬프, 비음성 이벤트 마커(예: 웃음)가 포함된 구조화된 JSON 트랜스크립트를 얻을 수 있다. 실시간 애플리케이션을 위한 저지연 버전은 곧 출시될 예정이다.

크리에이터와 기업은 일레븐랩스 대시보드를 통해 스크라이브를 직접 사용하여 오디오 또는 비디오 파일을 업로드하고 포맷된 트랜스크립트를 생성할 수 있다.

해당 모델에 대한 자세한 내용은 링크에서 확인할 수 있다.

이미지 출처: 일레븐랩스

기사는 클로드와 챗GPT를 활용해 작성되었습니다.