Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
대규모 언어 모델(Large Language Model, LLM)의 성능을 향상시키기 위해 지금까지는 주로 모델의 크기를 키우는 방식이 사용되어 왔다. GPT-4나 PaLM과 같은 거대 언어 모델들은 수천억 개의 매개변수를 가진 거대한 규모로 제작되었고, 이는 막대한 컴퓨팅 자원과 에너지를 필요로 한다. 하지만 구글 딥마인드(Google DeepMind)와 UC 버클리(UC Berkeley) 연구진이 이러한 통념을 깨는 획기적인 연구 결과를 발표했다. 연구진은 모델의 추론(Test-time) 과정을 최적화하면 더 작은 모델로도 더 큰 모델과 동등하거나 더 나은 성능을 달성할 수 있다는 사실을 입증했다.
이번 연구의 핵심은 문제의 난이도에 따라 최적의 추론 전략을 적용하는 ‘compute-optimal’ 방식의 제안이다. 연구진은 각 문제의 특성에 맞춰 순차적 수정(Sequential Revision)과 병렬 처리(Parallel Processing)의 비율을 최적화하는 방식을 개발했다. 특히 주목할 만한 점은 문제의 난이도에 따라 최적의 전략이 달라진다는 것이다. 쉬운 문제의 경우 순차적 수정 방식이 더 효과적이며, 어려운 문제는 순차적 수정과 병렬 처리의 적절한 조합이 최상의 결과를 도출한다는 사실을 발견했다. 이는 마치 인간이 문제를 해결할 때 난이도에 따라 다른 접근 방식을 취하는 것과 유사한 패턴을 보여준다.
연구팀은 두 가지 주요 메커니즘에 초점을 맞춰 연구를 진행했다. 첫 번째는 검증 모델(Verifier)의 최적화다. 프로세스 기반 검증 모델(Process-based Reward Model, PRM)을 활용해 문제 해결 과정의 각 단계별 정확도를 평가했으며, 빔 서치(Beam Search)와 전방 탐색(Lookahead Search) 등 다양한 검색 알고리즘을 실험했다. 검증 모델은 각 단계에서 모델의 답변이 올바른 방향으로 진행되고 있는지를 평가하며, 이는 마치 학생의 문제 풀이 과정을 교사가 단계별로 지도하는 것과 유사한 방식이다.
두 번째는 제안 분포(Proposal Distribution)의 개선이다. 모델이 자체적으로 답변을 수정하고 개선하는 능력을 강화하고, 이전 시도들을 참고하여 더 나은 답변을 도출하는 방식을 연구했다. 이는 인간이 문제를 풀 때 이전의 실수를 참고하여 더 나은 해결책을 찾아가는 과정을 AI 시스템에 구현한 것이다. 연구진은 특히 수학 문제 해결 과정에서 이러한 방식의 효과성을 입증했다.
연구 결과는 기존의 접근 방식에 비해 놀라운 성과를 보여줬다. 기존 방식 대비 4배 적은 컴퓨팅 자원으로도 동등하거나 더 나은 성능을 달성할 수 있었으며, 특히 쉽거나 중간 난이도의 문제에서 뛰어난 효율성을 보였다. 더욱 놀라운 점은 14배 더 큰 모델과 비교해도 특정 유형의 문제에서 우수한 성능을 기록했다는 것이다. 이는 추론 단계 최적화가 단순한 모델 크기 확장보다 더 효과적일 수 있다는 것을 증명한다. 연구진은 특히 수학적 추론 능력을 테스트하는 MATH 벤치마크에서 이러한 결과를 검증했다.
이러한 연구 결과는 AI 산업계에 매우 중요한 시사점을 제공한다. 우선 대형 모델 학습에 필요한 막대한 컴퓨팅 비용을 절감할 수 있다는 점에서 비용 효율성이 높다. 현재 대형 언어 모델을 학습시키는 데는 수백만 달러의 비용이 소요되는데, 이러한 접근 방식은 더 작은 모델로도 유사한 성능을 달성할 수 있게 해준다. 또한 엣지 디바이스나 소규모 기업에서도 효율적인 AI 시스템을 구축할 수 있게 되어 리소스 제한 환경에서의 활용 가능성이 확대된다.
환경적 측면에서도 큰 의미를 갖는다. AI 모델 학습과 운영에 필요한 에너지 소비를 줄일 수 있어 더 지속가능한 AI 개발 방향을 제시한다. 현재 대형 언어 모델의 학습과 운영은 상당한 양의 전력을 소비하며 이는 환경에 부정적인 영향을 미치고 있다. 이번 연구는 이러한 문제를 해결할 수 있는 새로운 방향을 제시한다.
연구진은 향후 연구 방향으로 세 가지를 제시했다. 첫째, 더 효율적인 난이도 평가 방법 개발과 실시간 난이도 평가 시스템 구축이 필요하다. 현재는 문제의 난이도를 평가하는 데 상당한 컴퓨팅 자원이 필요한데, 이를 더 효율적으로 수행할 수 있는 방법을 개발해야 한다. 둘째, 여러 최적화 방법의 결합 효과를 연구하고 새로운 추론 단계 최적화 기법을 개발해야 한다. 예를 들어, 트리 검색과 순차적 수정을 결합하는 등의 새로운 접근 방식을 탐구할 수 있다. 셋째, 추론 단계에서 얻은 인사이트를 모델 학습에 재활용하는 자기 개선 시스템을 구축해야 한다. 이는 모델이 문제 해결 과정에서 얻은 경험을 통해 지속적으로 성능을 향상시킬 수 있게 해준다.
이번 연구는 대규모 AI 모델 개발의 새로운 방향성을 제시한다. 단순히 모델의 크기를 키우는 것이 아니라, 더 스마트한 방식으로 모델을 활용하고 최적화하는 것이 중요하다는 점을 보여준다. 이는 AI 기술의 민주화에도 기여할 수 있다. 거대 기업만이 아닌, 더 많은 조직과 연구자들이 고성능 AI 시스템을 개발하고 활용할 수 있게 되기 때문이다.
또한 이 연구는 AI 시스템의 추론 과정이 인간의 사고 과정과 유사한 방식으로 발전할 수 있다는 가능성을 보여준다. 문제의 난이도에 따라 다른 전략을 적용하고, 이전 경험을 활용하여 답안을 개선하는 등의 방식은 인간의 학습 과정과 매우 유사하다. 이는 향후 AI 시스템이 더욱 인간적인 방식으로 문제를 해결할 수 있게 될 것이라는 전망을 제시한다.
이 연구는 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기