Not All LLM Reasoners Are Created Equal
대형 언어모델, 기초 수학 문제 연계 해결에 어려움 겪어
대형 언어모델(LLM)들이 단순 수학 문제는 잘 풀어내지만, 문제를 연계해 해결하는 복합적인 추론 능력은 떨어지는 것으로 나타났다. 최근 발표된 연구에 따르면, 대부분의 LLM이 기초 수학 문제를 연계해 푸는 ‘복합 GSM(Compositional Grade-School Math)’ 테스트에서 예상보다 낮은 성능을 보였다.
연구진은 기존 GSM8K 데이터셋의 문제들을 연계해 새로운 복합 GSM 테스트를 만들었다. 이 테스트에서는 첫 번째 문제의 답을 이용해 두 번째 문제를 풀어야 한다. 예를 들어, “나무가 15그루 있는 숲에 오늘 나무를 더 심어 21그루가 되었다. 오늘 몇 그루를 심었는가?”라는 첫 번째 문제의 답(6그루)을 이용해 “마리사의 반에는 X명의 학생이 있다. 각 학생은 연초에 10개의 연필을 가지고 시작했다. 2개월 후, 반 전체 연필의 1/5이 사용되었다. 연말에는 남은 연필의 1/3만 남았다. 몇 개의 연필이 남았는가?”와 같은 두 번째 문제를 풀어야 한다.
연구 결과, 대부분의 LLM이 개별 문제를 푸는 것보다 연계된 문제를 푸는 데 어려움을 겪었다. 이는 LLM이 단순히 패턴을 인식하는 것을 넘어 진정한 이해와 추론 능력을 갖추고 있는지에 대한 의문을 제기한다.
작은 규모와 특화 모델일수록 성능 격차 커
특히 주목할 만한 점은 작은 규모의 모델과 수학에 특화된 모델에서 이러한 ‘추론 격차’가 더 크게 나타났다는 것이다. 예를 들어, GPT-4와 비슷한 성능을 보이는 것으로 알려진 GPT-4 미니는 복합 GSM 테스트에서 GPT-4보다 훨씬 낮은 점수를 기록했다. GPT-4 미니는 GSM8K 테스트에서 90% 이상의 정확도를 보였지만, 복합 GSM에서는 성능이 크게 떨어졌다.
수학 특화 모델인 Qwen2.5-Math-7B-IT의 경우, 고난도 고등학교 수준의 수학 문제는 80% 이상 정확히 풀어냈지만, 복합 GSM 문제는 60% 미만으로 해결하는 데 그쳤다. 이는 단순히 난이도 높은 문제를 푸는 것보다 기초적인 문제를 연계해 푸는 능력이 부족함을 보여준다.
이러한 결과는 비용 효율적인 소형 모델들의 한계를 드러내는 동시에, 현재의 수학 추론 벤치마크가 모델의 실제 추론 능력을 정확히 반영하지 못할 수 있음을 시사한다.
지시 미세조정과 코드 생성의 영향력 차이
연구진은 또한 지시 미세조정(instruction tuning)이 모델 크기에 따라 다른 영향을 미친다는 점을 발견했다. 작은 모델의 경우 지시 미세조정이 GSM8K 성능은 크게 향상시켰지만, 복합 GSM 성능 향상은 미미했다. 예를 들어, Mistral-7B 모델은 지시 미세조정 후 GSM8K 성능이 14.1% 향상된 반면, 복합 GSM 성능은 4.3% 향상에 그쳤다.
반면 큰 모델에서는 이러한 경향이 나타나지 않았다. LLAMA3-70B 모델의 경우, 지시 미세조정 후 GSM8K 성능은 8.6% 향상되었고, 복합 GSM 성능은 19.0% 향상되었다. 이는 모델 크기에 따라 학습 동역학과 일반화 능력에 체계적인 차이가 있음을 보여준다.
코드 생성 방식으로 문제를 해결하게 했을 때는 대체로 복합 GSM 성능이 향상되었다. 특히 작은 모델에서 이러한 개선 효과가 더 크게 나타났다. 예를 들어, Mistral-7B 모델은 코드 생성 방식을 사용했을 때 복합 GSM 성능이 149% 향상되었다. 이는 모델 크기에 따라 추론 능력에 체계적인 차이가 있음을 다시 한 번 확인시켜준다.
과적합 위험성과 평가 방식 개선 필요성 제기
연구진은 GSM8K 데이터로 모델을 미세조정할 경우 과적합이 발생할 수 있다고 경고했다. 실험 결과, 학습이 진행될수록 GSM8K 성능은 향상되지만 복합 GSM 성능은 오히려 떨어지는 현상이 관찰되었다. 이는 모델이 특정 형태의 문제에 과도하게 최적화되어 일반화 능력을 잃을 수 있음을 보여준다.
이러한 현상은 인간이 작성한 데이터와 모델이 자체 생성한 합성 데이터 모두에서 관찰되었다. 연구진은 이를 바탕으로, 최근 작은 모델의 성능을 높이기 위해 대규모 합성 데이터를 사용하는 접근법이 표준 벤치마크 성능만을 목표로 할 뿐, 전반적인 일반화와 다양한 과제에 대한 효과성을 해칠 수 있다고 지적했다.
LLM의 취약점 분석
연구진은 LLM이 복합 GSM 테스트에서 어려움을 겪는 원인을 분석했다. 첫째, 테스트 데이터 유출이 성능 저하의 주요 원인은 아닌 것으로 나타났다. 대부분의 모델이 수정된 GSM 문제에서도 원래 GSM8K 테스트와 비슷한 정확도를 보였기 때문이다.
둘째, 일부 모델은 추가 맥락에 쉽게 혼란을 겪는 것으로 나타났다. 단일 문제를 잘 해결하던 모델도 두 개의 연계된 문제가 주어졌을 때 첫 번째 문제를 제대로 풀지 못하는 경우가 있었다. 이는 모델이 복잡한 맥락에서 중요한 세부 사항을 놓치거나 부적절한 추론을 할 수 있음을 보여준다.
마지막으로, 첫 번째 문제를 올바르게 해결했더라도 두 번째 문제를 제대로 풀지 못하는 경우가 많았다. 이는 모델이 다단계 추론에 어려움을 겪고 있음을 시사한다.
이번 연구 결과는 현재 널리 사용되는 수학 추론 벤치마크가 LLM의 실제 추론 능력을 과대평가할 수 있다는 점을 시사한다. 연구진은 LLM의 추론 능력을 더 정확히 평가하기 위해서는 복합적이고 맥락에 민감한 과제를 포함한 새로운 평가 방식이 필요하다고 주장했다.
또한 이 연구는 비용 효율적인 소형 모델들의 한계를 드러내며, 이들의 개발 전략을 재고해야 할 필요성을 제기한다. 단순히 표준 벤치마크 점수를 높이는 것을 넘어, 진정한 이해와 추론 능력을 갖춘 모델을 개발하는 것이 중요하다는 것이다.
결론적으로, 이 연구는 LLM의 수학적 추론 능력에 대한 새로운 통찰을 제공하며, 향후 AI 개발 방향에 중요한 시사점을 던진다. LLM의 실제 능력을 정확히 평가하고, 더 강력하고 신뢰할 수 있는 AI 시스템을 개발하기 위해서는 복합적이고 맥락에 민감한 평가 방식의 도입이 필요할 것으로 보인다.
이 연구는 arXiv에 게재되었으며, 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.