Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
생성형 AI 모델의 추론 능력을 높이는 방법으로 모델 크기를 키우는 것 외에도 추론 시 연산을 최적화하는 방법이 주목받고 있다. 최근 연구에 따르면, 테스트 시 연산 방식을 문제 난이도에 따라 최적화하면 모델 크기를 14배 키우는 것보다 더 나은 성능을 보일 수 있는 것으로 나타났다. 이는 대규모 언어 모델(Large Language Model, LLM)의 발전 방향에 새로운 통찰을 제공하는 중요한 발견이다.
구글 딥마인드(Google DeepMind)와 UC 버클리 연구진이 발표한 논문 “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”에 따르면, 생성형 AI 모델의 테스트 시 연산을 최적화하면 기존 방식 대비 2-4배 더 효율적으로 성능을 끌어올릴 수 있다. 연구진은 특히 문제의 난이도에 따라 서로 다른 연산 전략을 적용하는 ‘컴퓨트-최적(compute-optimal)’ 방식을 제안했다.
난이도별 최적 연산 전략 달라
연구진은 수학 문제 해결을 위한 두 가지 주요 연산 전략인 ‘검증 모델을 통한 탐색’과 ‘제안 분포 개선’의 효과를 분석했다. 그 결과 문제 난이도에 따라 최적의 전략이 다르다는 사실을 발견했다.
‘검증 모델을 통한 탐색’은 모델이 생성한 여러 답변 후보 중 가장 적절한 것을 선택하는 방식이다. 이 방법은 주로 어려운 문제에서 효과적이었다. 복잡한 문제일수록 다양한 접근 방식을 시도해보는 것이 유리하기 때문이다. 연구진은 이 과정에서 프로세스 기반 보상 모델(Process Reward Model, PRM)을 사용해 각 단계의 정확성을 평가했다.
반면 ‘제안 분포 개선’은 모델이 초기에 제안한 답안을 순차적으로 개선해나가는 방식이다. 이 전략은 주로 쉬운 문제에서 효과적이었다. 쉬운 문제의 경우 모델이 처음부터 어느 정도 올바른 방향으로 접근하기 때문에, 이를 점진적으로 개선하는 것이 효율적인 것으로 나타났다.
연구진은 이러한 발견을 바탕으로 문제 난이도에 따라 최적의 연산 전략을 선택하는 ‘컴퓨트-최적’ 방식을 제안했다. 이 방식을 적용하면 기존의 단순 병렬 연산 방식 대비 4배 적은 연산으로도 동등 이상의 성능을 낼 수 있는 것으로 나타났다.
구체적으로, 쉬운 문제에서는 순차적 개선(sequential revisions) 방식이 효과적이었고, 어려운 문제에서는 순차적 개선과 병렬 샘플링(parallel sampling)을 적절히 조합하는 것이 최적의 성능을 보였다. 이는 문제의 특성에 따라 유연하게 연산 전략을 조정하는 것이 중요함을 시사한다.
사전 학습보다 테스트 시 연산이 더 효과적인 경우도
연구진은 또한 모델의 크기를 키우는 대신 테스트 시 연산을 늘리는 방식의 효과도 분석했다. 그 결과 쉽거나 중간 난이도의 문제에서는 테스트 시 연산을 늘리는 것이 모델 크기를 키우는 것보다 더 효과적인 것으로 나타났다.
구체적으로, 14배 더 큰 모델과 비교했을 때 테스트 시 연산을 최적화한 작은 모델이 동등하거나 더 나은 성능을 보이는 경우가 많았다. 이는 단순히 모델 크기를 키우는 것보다 테스트 시 연산을 최적화하는 것이 더 효율적일 수 있음을 보여준다.
다만 가장 어려운 문제에서는 여전히 모델 크기를 키우는 것이 더 효과적이었다. 이는 매우 복잡한 추론이 필요한 문제의 경우, 모델의 기본적인 능력 자체가 중요하다는 점을 시사한다.
연구진은 이러한 결과를 바탕으로 “향후에는 사전 학습에 적은 컴퓨팅 자원을 사용하고, 대신 테스트 시 연산을 늘려 모델 출력을 개선하는 것이 더 효과적일 수 있다”고 전망했다. 이는 대규모 언어 모델 개발에 있어 새로운 패러다임을 제시하는 것으로, 모델 학습과 추론 과정의 균형에 대한 재고가 필요함을 시사한다.
연구의 의의와 한계
이 연구 결과는 대규모 언어 모델의 성능을 높이는 데 있어 단순히 모델 크기를 키우는 것 외에도 다양한 접근법이 가능함을 보여준다. 특히 테스트 시 연산 최적화는 모델 크기 증가에 따른 막대한 컴퓨팅 자원 소모 문제를 해결할 수 있는 대안으로 주목받고 있다.
현재 AI 업계에서는 모델의 크기를 키우는 것이 성능 향상의 주된 방법으로 여겨지고 있다. 그러나 이는 엄청난 양의 컴퓨팅 자원과 에너지를 필요로 한다. 이번 연구는 이러한 접근법의 한계를 지적하고, 보다 효율적인 대안을 제시했다는 점에서 의의가 크다.
또한 이 연구는 AI 모델의 추론 과정을 더 깊이 이해하고 최적화할 수 있는 가능성을 보여주었다. 문제의 난이도에 따라 다른 전략을 사용한다는 발견은 AI의 추론 과정이 인간의 사고 과정과 유사한 면이 있음을 시사한다. 이는 향후 AI 모델의 설계와 학습 방식에 새로운 통찰을 제공할 수 있을 것이다.
다만 이 연구에는 몇 가지 한계점도 존재한다. 우선 문제 난이도를 평가하는 과정 자체에 상당한 계산 비용이 필요하다는 점이다. 연구진은 이를 위해 2048개의 샘플을 사용했는데, 이는 실제 적용에 있어 큰 부담이 될 수 있다. 향후 연구에서는 보다 효율적으로 문제 난이도를 평가하는 방법을 개발할 필요가 있다.
또한 이번 연구는 수학 문제 해결에 초점을 맞추었기 때문에, 다른 종류의 작업에서도 같은 결과가 나올지는 불확실하다. 언어 이해, 요약, 번역 등 다양한 자연어 처리 작업에서도 이러한 접근법이 효과적인지 검증이 필요하다.
마지막으로, 가장 어려운 문제에서는 여전히 모델 크기 증가가 더 효과적이라는 점은 이 방법의 한계를 보여준다. 즉, 테스트 시 연산 최적화만으로는 모든 상황에서 최고의 성능을 달성하기 어렵다는 것이다.
향후 연구 방향
이번 연구 결과는 향후 AI 연구 및 개발 방향에 중요한 시사점을 제공한다. 우선, 테스트 시 연산 최적화와 모델 크기 증가를 적절히 조합하는 방법에 대한 연구가 필요할 것으로 보인다. 각 접근법의 장단점을 고려해 최적의 균형점을 찾는 것이 중요할 것이다.
또한, 문제 난이도를 빠르고 정확하게 평가하는 방법에 대한 연구도 필요하다. 이는 실제 환경에서 ‘컴퓨트-최적’ 전략을 효과적으로 적용하기 위해 필수적이다. 예를 들어, 문제의 특성을 빠르게 분석해 난이도를 예측하는 별도의 모델을 개발하는 것도 하나의 방법이 될 수 있다.
더불어, 이번 연구에서 제안된 방법을 다양한 종류의 작업과 도메인에 적용해보는 것도 중요하다. 수학 문제 해결 외에 다른 자연어 처리 작업에서도 이러한 접근법이 효과적인지 검증이 필요하다.
마지막으로, 테스트 시 연산 결과를 다시 모델에 학습시키는 ‘자기 개선(self-improvement)’ 루프에 대한 연구도 기대된다. 이는 모델이 지속적으로 성능을 개선할 수 있는 길을 열어줄 수 있을 것이다.
결론적으로, 이번 연구는 대규모 언어 모델의 성능 향상을 위한 새로운 패러다임을 제시했다는 점에서 큰 의의가 있다. 앞으로 이러한 접근법이 더욱 발전하고 실제 AI 시스템에 적용된다면, 보다 효율적이고 지능적인 AI의 개발이 가능해질 것으로 기대된다.
보고서 원문은 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기