오픈AI, 차세대 오디오 API 모델 출시… 단어 오류율 크게 개선돼

오픈AI가 20일(현지 시간) 자사 웹사이트를 통해 개발자를 위한 새로운 음성 인식(STT)과 음성 합성(TTS) 모델을 공개했다. API를 통해 공개된 이번 모델은 더 정확하고 맞춤형 음성 에이전트 개발을 가능하게 한다. 오픈AI가 출시한 ‘gpt-4o-transcribe’와 ‘gpt-4o-mini-transcribe’ 모델은 기존 위스퍼(Whisper) 모델보다 단어 오류율(WER)이 크게 개선되었다.

이 모델들은 악센트, 소음 환경, 다양한 말하기 속도에서도 높은 정확도를 유지하는 특징을 보인다. 또한 개발자들은 이번 출시된 모델을 통해 처음으로 “공감적인 고객 서비스 직원처럼 말해”와 같은 방식으로 음성 특성을 지정할 수 있게 되었다. 이러한 기능은 고객 서비스부터 창의적인 스토리텔링까지 다양한 응용이 가능하도록 지원한다.

오픈AI는 오디오 모델의 지능과 정확성을 계속 개선하고, 개발자들이 자체 맞춤형 음성을 안전하게 구현할 수 있는 방법을 모색할 예정이다. 또한 비디오 등 다양한 모달리티에도 투자해 멀티모달 AI 에이전트 경험을 확장할 계획이다.

해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지 출처: 오픈AI

기사는 클로드와 챗GPT를 활용해 작성되었습니다.