네이버가 자사의 대화형 AI 에이전트 클로바X(CLOVA X)에 시각 정보 처리 능력을 새롭게 추가한다고 밝혔다. 오는 27일 서비스 업데이트를 통해 이 기능이 도입될 예정이다. 또한 네이버는 생성형 AI 기반의 음성 합성 기술도 공개했다.
이번 업데이트로 네이버는 기반 모델인 하이퍼클로바X(HyperCLOVA X)를 텍스트뿐 아니라 이미지, 음성도 동시에 처리할 수 있는 ‘멀티모달(Multimodal)’ AI로 발전시키며 생성형 AI 기술 경쟁력을 강화하고 있다.
클로바X, 이미지 이해 능력 갖춰 활용 범위 확대
클로바X의 이미지 이해 기능 업데이트로 사용자들은 대화창에 업로드한 이미지에서 추출된 정보를 바탕으로 AI와 대화할 수 있게 됐다. 클로바X는 사진 속 현상을 묘사하거나 상황을 추론하는 등 다양한 지시를 수행할 수 있다. 특히 표나 그래프 형식의 이미지도 이해하고 분석할 수 있어, 개인의 생산성 향상 도구로서의 활용 범위가 더욱 넓어질 전망이다.

네이버에 따르면, 대한민국 초·중·고등학교 검정고시 총 1,480개 문항을 이미지 형태로 입력해 문제를 풀게 한 결과, 클로바X는 약 84%의 정답률을 기록했다. 이는 오픈AI의 GPT-4V가 보인 78%의 정답률을 뛰어넘는 수치다.
발전된 음성 AI 기술 탑재한 서비스 확대
네이버는 또한 ‘클로바’ 공식 사이트의 기술 블로그를 통해 하이퍼클로바X 기반 음성 AI 기술을 공개했다. 이 기술은 기존의 음성 인식, 음성 합성 기술보다 한층 발전한 모델로, 거대 언어 모델(LLM)의 특징인 뛰어난 문맥 이해 및 지시문 해석 능력을 활용해 자연스러운 대화가 가능하다.
네이버는 이미 AI 음성 기록 ‘클로바노트’, AI 안부전화 ‘클로바 케어콜’, AI 음성 합성 ‘클로바더빙’ 등 다양한 음성 AI 서비스로 기술 경쟁력을 입증한 바 있다. 이번 음성 멀티모달 LLM 기술로 실시간 음성 번역, 언어 학습, 상담 등 더 편리한 서비스를 제공할 계획이다.
네이버는 하이퍼클로바X를 멀티모달 LLM으로 고도화하고 서비스에 적용하는 과정에서 ‘AI 안전성’을 적극적으로 실천할 예정이다. 지난 6월 공개한 ‘AI 안전성 실천 체계(ASF: AI Safety Framework)’를 통해 AI 시스템의 잠재적 위험을 평가하고, 특히 음성 AI 기술에 대해서는 더욱 안전한 서비스 제공을 위해 다각도로 검토를 이어갈 계획이다.
성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “하이퍼클로바X의 발전된 능력은 클로바X를 비롯한 여러 네이버 서비스에 도입해 새로운 사용자 가치를 창출하고, 기업용 AI 솔루션으로도 제공하며 하이퍼클로바X 생태계를 더욱 확장해나갈 것”이라고 밝혔다.
관련 콘텐츠 더보기