Search

“웃음, 한숨 소리까지 구현” 오픈AI도 음성 AI 모델 ‘GPT 리얼타임’ 공개

“웃음, 한숨 소리까지 구현” 오픈AI, 음성 AI 모델 'GPT 리얼타임' 공개
이미지 출처: 오픈AI

오픈AI(OpenAI)가 인간 수준의 음성 품질을 자랑하는 새로운 음성-음성(speech-to-speech) 모델 ‘GPT 리얼타임(GPT Realtime)’과 개선된 실시간 API(Real-time API)를 정식 출시했다고 28일(현지 시간) 발표했다. 브래드 라이트캡(Brad Lightcap) 오픈AI 최고운영책임자는 오픈AI 공식 유튜브 라이브 스트리밍을 통해 “AI 에이전트가 인간 수준의 음성 품질로 대화할 수 있도록 하는 큰 걸음을 내딛고 있다”며 “두 제품 모두 오늘부터 개발자들이 사용할 수 있다”고 밝혔다.


새로운 GPT 리얼타임은 기존의 음성 인식-언어 모델-음성 합성으로 구성된 전통적인 구조와 달리, 오디오를 직접 이해하고 생성하는 단일 모델이다. 이로 인해 웃음소리나 한숨 같은 미묘한 소리까지 인식할 수 있으며, 문장 중간에 언어를 바꿔 말하는 것도 가능하다.

오픈AI에 따르면 새 모델은 고품질 음성 데이터와 전문 보상 모델을 조합해 훈련됐으며, 감정 표현 범위가 넓고 지시 사항 준수 능력이 크게 개선됐다. 복잡한 다중 턴 대화에서 사용자 지시를 얼마나 잘 따르는지 평가하는 벤치마크에서 30% 이상의 정확도를 기록해 이전 모델 대비 성능이 크게 향상됐다고 설명했다.

실시간 API에는 이미지 입력, EU 데이터 거주지 옵션, 비동기 함수 호출, SIP 전화 통신 지원, MCP(Model Context Protocol) 지원 등 다양한 신기능이 추가됐다. 특히 MCP 지원으로 모델이 음성을 통해 다양한 도구를 활용해 사용자를 대신해 작업을 수행할 수 있게 됐다.

라이브 데모에서는 T-모바일(T-Mobile)이 새로운 모델을 활용한 휴대폰 업그레이드 상담 서비스를 선보였다. 스리니 고팔란(Srini Gopalan) T-모바일 최고운영책임자는 “이전보다 훨씬 인간적이며 고객이 어떤 방향으로 대화를 이끌어도 자연스럽게 따라간다”며 “감정적 품질과 음성-화면 연동 능력이 모두 크게 발전했다”고 평가했다.

고팔란은 “AI를 10% 더 나은 자동응답시스템(IVR)을 만드는 데 사용하면 안 된다”며 “이 기술로 기존 프로세스를 완전히 재구성해야 한다”고 강조했다. 그는 “매장 전문가 수준의 서비스와 로봇 같은 음성 어시스턴트 사이의 절충점을 없애고 ‘주머니 속 전문가’를 제공하는 것이 목표”라고 말했다.

T-모바일은 이 서비스를 9월 베타 버전으로 출시할 예정이라고 밝혔다.

해당 모델에 대한 자세한 사항은 오픈AI 웹사이트에서 확인 가능하다.

이미지 출처: 오픈AI




“웃음, 한숨 소리까지 구현” 오픈AI도 음성 AI 모델 ‘GPT 리얼타임’ 공개 – AI 매터스 l AI Matters