알리바바 9B 모델, 오픈AI 120B를 이겼다

알리바바(Alibaba)가 3월 1일 오픈소스 언어 모델 큐웬 3.5 소형 시리즈를 공개했다. 0.8B, 2B, 4B, 9B 네 가지 크기로 구성됐으며 전 모델이 아파치 2.0 라이선스로 무료 배포된다.

빌드패스트위드AI에 따르면, 90억 파라미터 모델이 대학원 수준 추론 벤치마크에서 81.7점을 기록해 오픈AI 120억 파라미터 모델의 71.5점을 크게 앞질렀다. 수학 경시 벤치마크에서는 83.2점 대 76.7점, 종합 언어 이해 평가에서는 82.5점 대 80.8점으로 모두 우세했다. 영상 이해 평가에서도 84.5점으로 구글 제미나이(Google Gemini) 2.5 플래시 라이트의 74.6점을 앞섰다.

모든 모델은 별도의 어댑터 없이 텍스트, 이미지, 영상을 하나의 가중치로 처리하는 네이티브 멀티모달 구조다. 90억 파라미터 모델은 최대 26만 2천 토큰의 네이티브 컨텍스트 윈도우를 지원하며, 20억 파라미터 모델은 4GB 램 환경의 아이폰에서 오프라인으로 구동된다.

가격 차이도 눈에 띈다. 큐웬 3.5 API 비용은 입력 토큰 100만 개당 약 0.1달러로, 클로드 오퍼스 4.6 대비 약 13분의 1 수준이다. 고용량 추론을 처리하는 스타트업 입장에서는 제품 사업성을 가르는 수준의 차이다.

빌드패스트위드AI는 벤치마크 수치는 실제라고 인정하면서도, 대학원 수준 객관식 문제를 푸는 것과 실제 운영 환경에서 복잡한 문제를 디버깅하는 것은 다른 얘기라고 지적했다. 프론티어 독점 모델이 여전히 우위를 보이는 영역이 있는 만큼, 벤치마크는 출발점으로만 참고해야 한다는 조언이다.

자세한 내용은 빌드패스트위드 AI에서 확인할 수 있다.

이미지 출처: 이디오그램 생성