텐센트, 오픈소스 대화형 멀티모달 AI 모델 ‘VITA’ 공개

VITA: Towards Open-Source Interactive Omni Multimodal LLM

텐센트(Tencent) 유투랩(Youtu Lab)은 비디오, 이미지, 텍스트, 오디오를 동시에 처리할 수 있는 오픈소스 멀티모달 대규모 언어 모델(MLLM) ‘VITA(Towards Open-Source Interactive Omni Multimodal LLM)’를 공개했다.

VITA는 다양한 형태의 정보를 이해하고 처리하는 능력인 ‘멀티모달 능력’과 사용자와 대화하고 소통하는 능력인 ‘상호작용 경험’ 모두를 갖추고 있는 오픈소스 모델이 없다는 점에서 개발을 시작했다.

연구진은 “VITA는 오픈소스 커뮤니티에서 멀티모달 이해와 상호작용의 원활한 통합을 탐구하는 첫 번째 단계”라고 밝혔다.

VITA의 주요 특징은 다음과 같다:

멀티모달 처리: 비디오, 이미지, 텍스트, 오디오를 동시에 처리하고 분석할 수 있다.
고급 상호작용: 사용자와의 자연스러운 멀티모달 상호작용 경험을 제공한다.
이중 언어 지원: 중국어와 영어를 모두 지원한다.

VITA의 훈련 과정은 크게 세 단계로 이뤄졌다. 첫째, Mixtral 8×7B 모델을 기반으로 중국어 어휘를 확장하고 이중 언어 지시 튜닝을 수행했다. 둘째, 다중 작업 학습을 통해 시각 및 오디오 기능을 추가했다. 마지막으로, 멀티모달 지시 튜닝을 통해 모델의 지시 따르기 능력을 향상시켰다.

연구진은 VITA에 ‘Non-awakening Interaction’과 ‘Audio Interrupt Interaction’이라는 두 가지 혁신적인 기능을 구현했다. 이를 통해 사용자는 특정 단어로 AI를 호출하지 않아도 자연스럽게 대화를 이어갈 수 있으며, 모델이 응답하는 도중에도 새로운 질문을 할 수 있게 됐다.

VITA의 성능 평가 결과, 이미지 이해 능력에서는 오픈소스 모델인 LLaVA-Next를 앞섰고 비공개 모델인 Gemini 1.5 Pro에 근접한 성능을 보였다. 비디오 이해 능력에서는 오픈소스 모델인 Video-CCAM을 능가했다.

그러나 연구진은 “여전히 비공개 모델들과는 상당한 격차가 있다”고 인정하며, “VITA는 아직 초기 단계이며, 앞으로 기본 능력 향상, 노이즈 오디오 구성 개선, LLM과 통합된 엔드투엔드 TTS(Text-to-Speech) 구축 등의 과제가 남아있다”고 밝혔다.

VITA의 공개로 오픈소스 AI 커뮤니티에서 멀티모달 이해와 상호작용 통합에 대한 연구가 더욱 활발해질 것으로 보인다.

본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.

관련 콘텐츠 더보기