Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
구글 딥마인드(Google DeepMind), UCLA, 그리고 밀라(Mila) 연구소의 연구진은 동일한 컴퓨팅 예산 내에서 대규모 언어 모델 대신 소형 모델을 활용하여 더 많은 샘플을 생성하는 방식의 효율성을 검증했다.
이 접근법은 “약하지만 저렴한”(Weak but Cheap, WC) 모델과 “강력하지만 비싼”(Strong but Expensive, SE) 모델의 성능을 비교하는 데 중점을 두었다.
실험 결과, WC 모델에서 생성된 데이터는 SE 모델보다 더 높은 커버리지(coverage)와 다양성(diversity)을 보였다. 예를 들어, MATH 데이터셋에서 Gemma2-9B(WC) 모델은 Gemma2-27B(SE) 모델에 비해 11% 높은 커버리지와 86% 높은 다양성을 달성했다. 이는 소형 모델이 더 많은 고유한 문제를 해결하고 다양한 정답을 제시할 수 있음을 의미한다.
소형 모델 기반 파인튜닝의 우수성
연구팀은 WC 모델과 SE 모델에서 생성된 데이터를 사용하여 다양한 설정에서 언어 모델을 파인튜닝했다. 놀랍게도 WC 모델에서 생성된 데이터로 훈련된 모델이 SE 모델 데이터로 훈련된 모델보다 일관되게 우수한 성능을 보였다.
- 학생 모델 파인튜닝: Gemma-7B 모델을 WC 데이터로 훈련했을 때, SE 데이터 훈련 대비 MATH 데이터셋에서 최대 6% 성능 향상을 보였다.
- WC 모델 자체 개선: Gemma2-9B 모델이 자체 생성 데이터로 훈련될 때 SE 모델 데이터 기반 지식 증류보다 최대 3.8% 성능 향상을 달성했다.
- SE 모델 개선: 흥미롭게도 Gemma2-27B 모델을 WC 모델 데이터로 훈련했을 때 자체 생성 데이터 훈련보다 최대 5.8% 높은 성능을 보였다.
이러한 결과는 기존의 “더 강력한 모델이 더 나은 훈련 데이터를 제공한다”는 통념에 도전장을 던졌다.
일반화 능력과 확장성
연구진은 MATH 데이터셋으로 훈련된 모델의 일반화 능력을 Functional MATH 데이터셋에서 평가했다. WC 데이터로 훈련된 모델은 SE 데이터 훈련 모델보다 일관되게 우수한 성능을 보였으며, 상대적 이득은 최대 6.5%에 달했다.
더 나아가 연구팀은 이 방법론을 최신 언어 모델인 Gemini-1.5 시리즈에 적용했다. Gemini-1.5-Flash(WC)와 Gemini-1.5-Pro(SE) 모델을 비교한 결과, Flash 모델 데이터로 훈련된 Gemma 모델들이 Pro 모델 데이터 훈련 대비 최대 31.6%의 성능 향상을 보였다.
미래 전망: 소형 모델의 부상
연구진은 최근 1년간 공개된 17개 언어 모델의 MATH 데이터셋 성능을 분석했다. 그 결과, 소형 모델(1B-9B 매개변수)의 성능 향상 속도가 대형 모델(20B-80B 매개변수)보다 빠른 것으로 나타났다. 이는 소형 모델과 대형 모델 간 성능 격차가 점차 줄어들고 있음을 시사한다.
연구팀은 “소형 모델의 빠른 성능 향상은 고품질 사전 학습 데이터, 정제 기술, 지식 증류 등 다양한 요인에 기인한다”고 설명했다. 이러한 추세는 향후 AI 연구 및 응용 분야에서 소형 모델의 중요성이 더욱 커질 것임을 암시한다.
결론 및 시사점
이번 연구는 AI 분야에서 소형 언어 모델의 잠재력을 재평가하게 만드는 중요한 계기가 될 것으로 보인다. 컴퓨팅 자원의 효율적 활용과 소형 모델의 장점을 결합한 이 접근법은 AI 모델 개발 및 적용 방식에 새로운 패러다임을 제시했다.
연구진은 “소형 모델과 대형 모델 간 성능 격차가 좁아짐에 따라, 우리의 연구 결과가 미래 AI 추론 모델 개발에 중요한 기반이 될 것”이라고 전망했다. 이는 AI 기술의 민주화와 더 넓은 범위의 응용을 가능케 할 것으로 기대된다.
앞으로 AI 연구자들과 개발자들은 대규모 모델에만 의존하지 않고, 소형 모델의 잠재력을 최대한 활용하는 방안을 더욱 적극적으로 모색할 것으로 보인다. 이는 AI 기술의 효율성 향상과 더불어 보다 지속 가능한 AI 발전을 이끌어낼 수 있을 것이다.
구글 딥마인드의 논문은 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기