“웃음, 한숨 소리까지 구현” 오픈AI도 음성 AI 모델 'GPT 리얼타임' 공개

오픈AI(OpenAI)가 인간 수준의 음성 품질을 자랑하는 새로운 음성-음성(speech-to-speech) 모델 ‘GPT 리얼타임(GPT Realtime)’과 개선된 실시간 API(Real-time API)를 정식 출시했다고 28일(현지 시간) 발표했다. 브래드 라이트캡(Brad Lightcap) 오픈AI 최고운영책임자는 오픈AI 공식 유튜브 라이브 스트리밍을 통해 “AI 에이전트가 인간 수준의 음성 품질로 대화할 수 있도록 하는 큰 걸음을 내딛고 있다”며 “두 제품 모두 오늘부터 개발자들이 사용할 수 있다”고 밝혔다.

새로운 GPT 리얼타임은 기존의 음성 인식-언어 모델-음성 합성으로 구성된 전통적인 구조와 달리, 오디오를 직접 이해하고 생성하는 단일 모델이다. 이로 인해 웃음소리나 한숨 같은 미묘한 소리까지 인식할 수 있으며, 문장 중간에 언어를 바꿔 말하는 것도 가능하다.

오픈AI에 따르면 새 모델은 고품질 음성 데이터와 전문 보상 모델을 조합해 훈련됐으며, 감정 표현 범위가 넓고 지시 사항 준수 능력이 크게 개선됐다. 복잡한 다중 턴 대화에서 사용자 지시를 얼마나 잘 따르는지 평가하는 벤치마크에서 30% 이상의 정확도를 기록해 이전 모델 대비 성능이 크게 향상됐다고 설명했다.

실시간 API에는 이미지 입력, EU 데이터 거주지 옵션, 비동기 함수 호출, SIP 전화 통신 지원, MCP(Model Context Protocol) 지원 등 다양한 신기능이 추가됐다. 특히 MCP 지원으로 모델이 음성을 통해 다양한 도구를 활용해 사용자를 대신해 작업을 수행할 수 있게 됐다.

라이브 데모에서는 T-모바일(T-Mobile)이 새로운 모델을 활용한 휴대폰 업그레이드 상담 서비스를 선보였다. 스리니 고팔란(Srini Gopalan) T-모바일 최고운영책임자는 “이전보다 훨씬 인간적이며 고객이 어떤 방향으로 대화를 이끌어도 자연스럽게 따라간다”며 “감정적 품질과 음성-화면 연동 능력이 모두 크게 발전했다”고 평가했다.

고팔란은 “AI를 10% 더 나은 자동응답시스템(IVR)을 만드는 데 사용하면 안 된다”며 “이 기술로 기존 프로세스를 완전히 재구성해야 한다”고 강조했다. 그는 “매장 전문가 수준의 서비스와 로봇 같은 음성 어시스턴트 사이의 절충점을 없애고 ‘주머니 속 전문가’를 제공하는 것이 목표”라고 말했다.

T-모바일은 이 서비스를 9월 베타 버전으로 출시할 예정이라고 밝혔다.

해당 모델에 대한 자세한 사항은 오픈AI 웹사이트에서 확인 가능하다.

이미지 출처: 오픈AI

“웃음, 한숨 소리까지 구현” 오픈AI도 음성 AI 모델 ‘GPT 리얼타임’ 공개

앤트로픽, AI 에이전트 개발 스타트업 버셉트 인수…창업자 한명은 메타로

제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다… 한국서도 적용

“AI 개발은 기타 배우기와 같다”…오픈클로 개발자가 전하는 AI 빌더 생존법

975g으로 AI 정복…한국레노버, 요가 11세대 4종 출시

[취준생 나합격의 AI 부캐 활용기] 자소서는 막히고, 면접은 떨리고, 합격은 멀 것만 같을 때

Highlight

“돈은 관심 없다”…오픈클로 개발자, 저커버그 제안 거절하고 알트만 택한 이유

구글, 제미나이 3.1 Pro 출시…추론 성능 전작 대비 2배 이상 향상

구글(Google) 제미나이(Gemini) 앱, AI 음악 생성 기능 품었다…”텍스트 한 줄이나 폰…

AI는 이제 ‘알아서 척척’… 2026년, 당신의 직장과 일상을 바꿀 AI의 민낯

한 질문에 AI 4개가 토론한다…xAI, ‘그록 4.20’ 공개