구글 딥마인드, LLM 홍수 속 sLLM모델 우수성 증명

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

구글 딥마인드(Google DeepMind), UCLA, 그리고 밀라(Mila) 연구소의 연구진은 동일한 컴퓨팅 예산 내에서 대규모 언어 모델 대신 소형 모델을 활용하여 더 많은 샘플을 생성하는 방식의 효율성을 검증했다.

이 접근법은 “약하지만 저렴한”(Weak but Cheap, WC) 모델과 “강력하지만 비싼”(Strong but Expensive, SE) 모델의 성능을 비교하는 데 중점을 두었다.

실험 결과, WC 모델에서 생성된 데이터는 SE 모델보다 더 높은 커버리지(coverage)와 다양성(diversity)을 보였다. 예를 들어, MATH 데이터셋에서 Gemma2-9B(WC) 모델은 Gemma2-27B(SE) 모델에 비해 11% 높은 커버리지와 86% 높은 다양성을 달성했다. 이는 소형 모델이 더 많은 고유한 문제를 해결하고 다양한 정답을 제시할 수 있음을 의미한다.

소형 모델 기반 파인튜닝의 우수성

연구팀은 WC 모델과 SE 모델에서 생성된 데이터를 사용하여 다양한 설정에서 언어 모델을 파인튜닝했다. 놀랍게도 WC 모델에서 생성된 데이터로 훈련된 모델이 SE 모델 데이터로 훈련된 모델보다 일관되게 우수한 성능을 보였다.

학생 모델 파인튜닝: Gemma-7B 모델을 WC 데이터로 훈련했을 때, SE 데이터 훈련 대비 MATH 데이터셋에서 최대 6% 성능 향상을 보였다.
WC 모델 자체 개선: Gemma2-9B 모델이 자체 생성 데이터로 훈련될 때 SE 모델 데이터 기반 지식 증류보다 최대 3.8% 성능 향상을 달성했다.
SE 모델 개선: 흥미롭게도 Gemma2-27B 모델을 WC 모델 데이터로 훈련했을 때 자체 생성 데이터 훈련보다 최대 5.8% 높은 성능을 보였다.

이러한 결과는 기존의 “더 강력한 모델이 더 나은 훈련 데이터를 제공한다”는 통념에 도전장을 던졌다.

일반화 능력과 확장성

연구진은 MATH 데이터셋으로 훈련된 모델의 일반화 능력을 Functional MATH 데이터셋에서 평가했다. WC 데이터로 훈련된 모델은 SE 데이터 훈련 모델보다 일관되게 우수한 성능을 보였으며, 상대적 이득은 최대 6.5%에 달했다.

더 나아가 연구팀은 이 방법론을 최신 언어 모델인 Gemini-1.5 시리즈에 적용했다. Gemini-1.5-Flash(WC)와 Gemini-1.5-Pro(SE) 모델을 비교한 결과, Flash 모델 데이터로 훈련된 Gemma 모델들이 Pro 모델 데이터 훈련 대비 최대 31.6%의 성능 향상을 보였다.

미래 전망: 소형 모델의 부상

연구진은 최근 1년간 공개된 17개 언어 모델의 MATH 데이터셋 성능을 분석했다. 그 결과, 소형 모델(1B-9B 매개변수)의 성능 향상 속도가 대형 모델(20B-80B 매개변수)보다 빠른 것으로 나타났다. 이는 소형 모델과 대형 모델 간 성능 격차가 점차 줄어들고 있음을 시사한다.

연구팀은 “소형 모델의 빠른 성능 향상은 고품질 사전 학습 데이터, 정제 기술, 지식 증류 등 다양한 요인에 기인한다”고 설명했다. 이러한 추세는 향후 AI 연구 및 응용 분야에서 소형 모델의 중요성이 더욱 커질 것임을 암시한다.