Search

오픈AI, 음성 API에 ‘GPT-Realtime-2’ 등 신모델 3종 공개… 70개 언어 동시통역까지

OpenAI, 음성 AI API에 'GPT-Realtime-2' 등 신모델 3종 공개… 70개 언어 동시통역까지
OpenAI, 음성 AI API에 'GPT-Realtime-2' 등 신모델 3종 공개… 70개 언어 동시통역까지

오픈AI(OpenAI)가 5월 7일 자사 개발자 플랫폼에 새로운 음성 인텔리전스(Voice Intelligence) 모델 3종을 일제히 공개했다. 음성 기반 AI 에이전트가 사람과 더 자연스럽게 대화하면서 실시간으로 업무까지 처리할 수 있도록 설계한 차세대 음성 모델 라인업이다.

이번에 공개된 모델은 ‘GPT-Realtime-2’, ‘GPT-Realtime-Translate’, ‘GPT-Realtime-Whisper’ 세 가지다. 가장 핵심으로 꼽히는 GPT-Realtime-2는 GPT-5급 추론 능력을 탑재해 복잡한 사용자 요청을 이해하고 처리할 수 있도록 만든 차세대 실시간 음성 대화 모델이다. 기존 GPT-Realtime-1.5 대비 추론 깊이와 응답의 일관성, 자연스러운 어조 모두에서 큰 폭의 개선이 이뤄졌다는 평가다.

GPT-Realtime-Translate는 이름 그대로 실시간 통역에 특화된 모델이다. 70여 개의 입력 언어와 13개의 출력 언어를 지원하며, 사용자가 말하는 속도에 맞춰 거의 끊김 없이 통역 결과를 생성한다. 오픈AI는 “회의·고객 상담·여행 등 다국어 커뮤니케이션 시나리오에서 인간 통역사에 가까운 흐름을 제공한다”고 설명했다.

마지막으로 GPT-Realtime-Whisper는 차세대 전사(transcription) 전용 모델이다. 노이즈 환경에서도 정확도를 유지하고, 의료·법률·금융 같은 전문 영역의 어휘 인식을 강화했다. 기존 Whisper 시리즈가 텍스트 전사를 중심으로 했다면, 이번 모델은 콜센터·의료 차트화·실시간 자막 등 기업용 워크플로우 통합에 초점을 맞췄다. OpenAI는 새 기능이 고객 서비스 시스템에 유용할 뿐만 아니라 교육·콘텐츠 제작 플랫폼 등 다양한 분야에 적용될 수 있다고 강조했다.

업계에서는 이번 발표가 오픈AI의 ‘AI 에이전트 시대’ 전략을 본격화하는 신호로 받아들여진다. 텍스트 기반 챗GPT가 시장의 표준으로 자리잡은 만큼, 다음 격전지는 음성 인터페이스가 될 것이라는 관측이다. 특히 GPT-Realtime-2는 콜센터 자동화, 의료 음성 상담, 차량용 어시스턴트, 교육 분야의 1대1 튜터링 등 다양한 분야에서 적용 시나리오가 확대될 전망이다.

가격 경쟁도 가속될 것으로 보인다. 오픈AI는 음성 토큰 기준 가격을 기존 대비 인하해 책정했고, 기업이 대규모로 통합할 때 부담을 줄였다고 강조했다. 같은 날 구글은 제미나이 라이브 음성 모드 기능을 확장했고, 앤트로픽은 클로드의 음성 인터페이스 베타를 일부 기업 고객에게 개방한 상태다. 음성 AI 시장의 본격적인 3강 경쟁이 펼쳐질 전망이다.

자세한 내용은 TechCrunch에서 확인할 수 있다.

이미지 출처: 이디오그램 생성