OpenAI, 실시간 음성 대화 가능한 'Realtime API' 공개... 개발자들의 AI 음성 앱 제작 쉬워진다

OpenAI가 개발자들을 위한 ‘Realtime API’를 공개했다. 이를 통해 개발자들은 저지연 멀티모달 경험을 앱에 구현할 수 있게 됐다. OpenAI는 7일(현지시간) 공식 블로그를 통해 이같이 밝혔다. Realtime API는 현재 ChatGPT의 고급 음성 모드와 유사한 자연스러운 음성 대 음성 대화를 지원한다. API에서 이미 지원되고 있는 6가지 프리셋 음성을 사용할 수 있다.

OpenAI는 또한 채팅 완성 API(Chat Completions API)에 오디오 입력과 출력 기능을 추가했다. 이를 통해 개발자들은 GPT-4o에 텍스트나 오디오 입력을 전달하고, 모델이 텍스트나 오디오, 또는 둘 다로 응답하도록 선택할 수 있게 됐다. 이전에는 개발자들이 음성 비서와 유사한 경험을 만들기 위해 여러 단계를 거쳐야 했다. 하지만 이제 Realtime API와 채팅 완성 API의 오디오 기능을 통해 단일 API 호출로 자연스러운 대화 경험을 구현할 수 있게 됐다.

Realtime API는 오디오 입력과 출력을 직접 스트리밍함으로써 더욱 자연스러운 대화 경험을 가능하게 했다. ChatGPT의 고급 음성 모드와 마찬가지로 중단도 자동으로 처리할 수 있다. OpenAI는 Realtime API의 활용 사례로 영양 및 피트니스 코칭 앱 헬시파이(Healthify)와 언어 학습 앱 스피크(Speak)를 소개했다.

Realtime API는 오늘부터 모든 유료 개발자들에게 공개 베타로 제공된다. API의 오디오 기능은 새로운 GPT-4o 모델인 ‘gpt-4o-realtime-preview’를 통해 제공된다. 채팅 완성 API의 오디오 기능은 향후 몇 주 내에 ‘gpt-4o-audio-preview’라는 새로운 모델로 출시될 예정이다.

OpenAI는 Realtime API의 가격 정책도 공개했다. 텍스트 입력 토큰은 100만 개당 5달러, 출력 토큰은 100만 개당 20달러다. 오디오 입력은 100만 토큰당 100달러, 출력은 100만 토큰당 200달러다. 이는 오디오 입력 1분당 약 0.06달러, 출력 1분당 약 0.24달러에 해당한다.

안전성과 개인정보 보호를 위해 OpenAI는 자동 모니터링과 인간의 검토를 포함한 여러 단계의 안전 보호 장치를 사용한다고 밝혔다. 또한 개발자들에게 사용자들이 AI와 상호작용하고 있다는 사실을 명확히 알리도록 요구하고 있다.

향후 OpenAI는 Realtime API에 더 많은 모달리티 추가, 증가된 속도 제한, 공식 SDK 지원, 프롬프트 캐싱, 확장된 모델 지원 등의 기능을 도입할 계획이다. OpenAI는 개발자들이 이러한 새로운 기능을 활용해 교육, 번역, 고객 서비스, 접근성 등 다양한 분야에서 매력적인 오디오 경험을 만들어낼 것을 기대하고 있다.

Realtime API에 대한 정보는 링크에서 확인할 수 있다.