오디오 AI의 혁신, 옴니오(Omnio) 등장... GPT-4 수준의 텍스트 처리 능력도 갖춰

인공지능(AI) 기술 분야에 새로운 혁신이 등장했다. 인간처럼 오디오를 이해하고 추론할 수 있는 최초의 AI 모델 ‘옴니오(Omnio)’가 공개됐다.

옴니오는 대화와 인간 행동을 오디오를 통해 포괄적으로 이해할 수 있는 최초의 멀티모달 AI 모델이다. 이 모델은 화자 식별, 역할 파악, 감정, 정서, 말하기 스타일과 같은 상호작용의 뉘앙스까지 파악하는 데 탁월한 성능을 보인다. 또한 단어를 넘어 소리와 비언어적 신호도 인식해 청각 환경에 대한 전례 없는 이해력을 제공한다.

옴니오는 오디오 처리 외에도 텍스트 추론에서 강력한 성능을 자랑한다. 텍스트 벤치마크에서 GPT-4와 다른 주요 AI 모델 제공업체들과 대등한 성능을 보이는 것으로 나타났다.

대부분의 기존 오디오 애플리케이션은 음성을 텍스트로 변환하는 기술을 사용한다. 이 과정에서 화자의 정체성, 역할, 톤, 감정, 비언어적 신호, 배경 소리 등 오디오의 중요한 정보가 손실되는 경우가 많았다.

반면 옴니오는 오디오 신호를 직접 처리하며, 인간처럼 기본적인 오디오와 음성 개념을 인식하고 이해하도록 훈련받았다. 이러한 새로운 기능을 통해 오디오, 음성, 대화에 대한 깊은 이해가 가능해졌고, 완전히 새로운 범위의 애플리케이션 창출이 가능해졌다.

옴니오는 단순한 일반 AI 모델을 넘어 다양한 산업 분야별 작업을 지원한다. 기업들은 미세 조정이나 수정 없이도 신뢰할 수 있게 업무에 활용할 수 있다. 개발사는 지난 4년간 실제 운영에서 얻은 방대한 산업별 지식과 독점 데이터셋을 확보했다고 밝혔다.

예를 들어 의료 산업에서는 의사의 구술과 의사-환자 대화의 방대한 컬렉션을 보유하고 있어, 의사와 의료 기관의 일상적인 요구에 부합하는 정확하고 강력한 AI 기능을 구축할 수 있었다.

옴니오 API는 오늘부터 모든 개발자에게 공개 베타로 출시되며, $5.00의 무료 크레딧을 제공한다. 텍스트 기능은 새로운 모델인 ‘omnio-chat-text-preview’로 구동되며, 오디오 기능은 ‘omnio-chat-audio-preview’ 모델로 제공된다.

텍스트 입력 토큰은 100만 개당 $2.00, 출력 토큰은 100만 개당 $5.00로 책정됐다. 오디오 입력 토큰은 100만 개당 $50.00로, 대략 1분의 오디오 입력당 $0.03에 해당한다.

옴니오의 등장으로 AI 기술이 한 단계 더 발전했다는 평가다. 특히 오디오 처리 분야에서 획기적인 진전을 이뤄냈으며, 이를 통해 다양한 산업 분야에서 새로운 응용 프로그램과 서비스가 등장할 것으로 기대된다.

옴니오에 대한 정보는 링크에서 확인할 수 있다.