• Home
  • AI Report
  • 오픈소스 최초 멀티모달 MoE 모델 ‘ARIA’ 공개…GPT-4와 성능 경쟁

오픈소스 최초 멀티모달 MoE 모델 ‘ARIA’ 공개…GPT-4와 성능 경쟁

ARIA : An Open Multimodal Native Mixture-of-Experts Model
이미지 출처: 미드저니 생성

ARIA : An Open Multimodal Native Mixture-of-Experts Model

Rhymes AI가 개발한 ARIA가 오픈소스 최초의 멀티모달 네이티브 MoE(Mixture-of-Experts) 모델로 공개되었다. ARIA는 GPT-4와 Gemini-1.5와 같은 기업 독점 모델들과 견줄만한 성능을 보여주며 주목받고 있는데, 특히 문서 이해, 차트 읽기, 장면 텍스트 인식, 비디오 이해 등 다양한 멀티모달 작업에서 우수한 성능을 입증했다는 점이 눈에 띈다.

ARIA의 혁신적인 아키텍처와 구조적 특징

ARIA는 텍스트 토큰당 3.5B 파라미터를 활성화하는 MoE 디코더를 핵심으로 하며, 총 24.9B 파라미터를 보유하고 있다. 각 MoE 레이어는 66개의 전문가로 구성되어 있는데, 이 중 2개의 전문가는 모든 입력을 공유하고 추가로 6개의 전문가가 각 토큰별로 활성화되는 구조를 가지고 있다. 이러한 구조는 전문가 특화를 통해 기존의 밀집 디코더보다 더 효율적인 파라미터 활용을 가능하게 한다.

시각적 입력 처리를 위해서는 438M 파라미터를 가진 경량 시각 인코더를 사용하며, 64K 토큰의 긴 멀티모달 컨텍스트 윈도우를 지원한다. 이는 다양한 길이, 크기, 종횡비의 시각적 입력을 효과적으로 처리할 수 있음을 의미한다. 특히 시각 인코더는 이미지를 가변 길이 패치 시퀀스로 처리하여 이미지의 고유한 정보 구조를 보존하는 것이 특징이다.

체계적인 4단계 사전학습 파이프라인

ARIA의 학습은 단계별로 특정 능력을 향상시키면서 이전 단계에서 획득한 능력을 유지하는 것을 목표로 하는 4단계 파이프라인으로 진행된다. 먼저 언어 사전학습 단계에서는 6.4T 토큰의 언어 데이터를 활용해 일반 지식을 학습한다. 이어지는 멀티모달 사전학습 단계에서는 400B 토큰의 멀티모달 데이터를 활용해 시각-언어 이해 능력을 향상시킨다.

세 번째 단계인 멀티모달 장문 맥락 사전학습에서는 64K 토큰의 긴 시퀀스를 처리하는 능력을 개발하며, 마지막 멀티모달 후속학습 단계에서는 고품질 데이터셋을 활용해 질의응답과 지시 따르기 능력을 개선한다. 각 단계는 데이터와 컴퓨팅 자원을 효율적이고 효과적으로 활용하여 모델의 성능을 최대화하도록 설계되었다.

인상적인 벤치마크 성과와 실용성 확보

ARIA는 Pixtral-12B와 Llama3.2-11B와 같은 오픈소스 모델들을 멀티모달, 언어, 코딩 등 다양한 작업에서 크게 앞지르는 성과를 보였다. 특히 문서 이해 작업인 DocVQA에서 92.6%, 차트 이해 작업인 ChartQA에서 86.4%, 장면 텍스트 인식 작업인 TextVQA에서 81.1%의 높은 정확도를 기록했다. 이는 GPT-4나 Gemini-1.5와 같은 기업 독점 모델들과 비교해도 경쟁력 있는 수준이다.

더욱 주목할 만한 점은 ARIA가 Apache 2.0 라이선스로 공개되어 학술 및 상업적 사용이 자유롭다는 것이다. 또한 단일 GPU로도 파인튜닝이 가능한 훈련 프레임워크를 함께 제공하여 실제 응용에서의 활용도를 높였다. 이는 연구자들과 개발자들이 ARIA를 기반으로 다양한 응용 모델을 개발하고 실제 서비스에 적용할 수 있는 가능성을 열어준다.

특히 ARIA의 효율적인 리소스 활용은 주목할 만하다. MoE 구조를 통해 더 적은 수의 활성화된 파라미터로도 우수한 성능을 달성할 수 있어, 추론 비용을 크게 절감할 수 있다. 또한 텐서 병렬처리 없이도 효과적인 학습이 가능하도록 설계되어 통신 오버헤드를 크게 줄이고 학습 효율성을 향상시켰다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




오픈소스 최초 멀티모달 MoE 모델 ‘ARIA’ 공개…GPT-4와 성능 경쟁 – AI 매터스