Search

LG AI연구원, 최초 오픈웨이트 비전 언어 모델 ‘EXAONE 4.5’ 공개

LG AI연구원, 최초 오픈웨이트 비전 언어 모델 'EXAONE 4.5' 공개
이미지 출처: LG AI연구원

LG AI연구원이 자체 개발 거대언어모델(LLM) 시리즈의 최신작인 ‘EXAONE 4.5’를 공개했다. 이번 모델은 LG가 처음으로 오픈 웨이트(open-weight) 방식으로 배포하는 비전-언어 모델(Vision Language Model, VLM)로, 텍스트는 물론 이미지 등 시각 정보까지 동시에 처리할 수 있는 진정한 멀티모달(Multimodal) 모델로 설계됐다.

LG AI연구원에 따르면, EXAONE 4.5는 기존 EXAONE 4.0의 언어 처리 구조에 자체 개발한 시각 인코더(Visual Encoder)를 혁신적인 방식으로 통합했다. 텍스트와 시각 정보를 처음부터 함께 학습하는 ‘네이티브 멀티모달 사전학습(Native Multimodal Pretraining)’ 방식을 채택해, 두 모달리티가 자연스럽게 융합되도록 설계한 것이 핵심 특징이다. 시각과 언어 모듈을 각각 별도 학습한 뒤 결합하는 기존 방식과는 근본적으로 다른 접근이다.

추론 속도 개선도 눈에 띈다. EXAONE 4.5는 멀티 토큰 예측(Multi-Token Prediction, MTP) 모듈을 새로 도입해 전작 대비 추론 속도를 약 1.5배 이상 향상시켰다. 또한 시각 인코더 내부에 그룹 쿼리 어텐션(Grouped Query Attention, GQA) 방식을 적용해, vLLM·TensorRT-LLM 등 주요 추론 프레임워크에서 별도 작업 없이도 최적화된 속도를 구현할 수 있도록 했다.

성능 면에서도 글로벌 경쟁력을 확인했다. LG AI연구원은 큐웬(Qwen) 3 VL 235B, 클로드(Claude) 소넷(Sonnet) 4.5, GPT-5 미니(mini) 등 주요 상용·오픈소스 모델과 비교 평가를 진행했다. 수학적 시각 추론 벤치마크인 MathVision·WeMath·LogicVista에서 큐웬 3 VL 32B와 235B를 모두 앞섰으며, 차트 분석 벤치마크 CharXiv에서는 GPT-5 미니와 클로드 소넷 4.5를 큰 차이로 앞섰다.

한국어 및 한국 시각 문화 이해에서도 두각을 나타냈다. 한국 특화 벤치마크인 k-viscuit과 KRETA에서 큐웬 3 VL 32B 대비 우수한 성능을 기록했다. 텍스트·에이전트 영역에서도 전작 대비 큰 폭으로 개선됐으며, 특히 장문 문맥 이해 벤치마크 AA-LCR에서는 전작 대비 3배 이상 향상돼 상대적으로 가벼운 모델로도 대규모 문서 처리가 가능함을 입증했다. 또한 도구 사용 능력을 평가하는 Tau2 벤치마크에서도 전작 대비 큰 폭의 향상을 기록하며 에이전트(agent)로서의 활용 가능성을 보여줬다.

자세한 내용은 LG AI연구원 공식 블로그(LG AI Research Blog)에서 확인할 수 있다.

이미지 출처: LG AI연구원

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너