GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
대규모 언어 모델(LLM)의 수학적 추론 능력에 상당한 한계가 있다는 연구 결과가 나왔다. 애플 연구팀이 발표한 ‘GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models’ 논문에 따르면, 기존 평가 방식으로는 LLM의 진정한 수학적 추론 능력을 측정하기 어렵다는 점이 밝혀졌다.
연구팀은 초등학교 수준의 수학 문제를 풀이하는 능력을 평가하는 GSM8K 벤치마크의 한계를 지적하며, 이를 개선한 ‘GSM-Symbolic’이라는 새로운 평가 방식을 제안했다. GSM-Symbolic은 기존 GSM8K 문제를 템플릿화하여 다양한 변형 문제를 생성할 수 있게 했다.
LLM의 수학 풀이 능력, 예상보다 불안정
GSM-Symbolic을 통해 평가한 결과, 최신 LLM들의 수학 문제 해결 능력이 예상보다 불안정하고 취약한 것으로 나타났다. 연구팀은 25개의 최신 공개 및 비공개 모델을 대상으로 광범위한 실험을 진행했다.
연구팀의 실험 결과, 대규모 언어 모델들의 수학적 추론 능력에 대해 몇 가지 중요한 발견이 있었다.
우선, 모든 모델이 동일한 문제의 다른 변형에 대해 상당한 성능 변동을 보였다. 예를 들어 Gemma2-9B 모델은 최고와 최저 성능 사이에 12%의 격차가 있었고, Phi-3.5-mini 모델은 이 격차가 15%까지 벌어졌다. 이는 모델들의 수학적 추론 능력이 예상보다 불안정하다는 것을 보여준다.
또한 대부분의 모델이 GSM-Symbolic에서 기존 GSM8K보다 낮은 성능을 보였다. Gemma2-9B 모델의 경우 GSM8K에서 87%의 정확도를 보였지만, GSM-Symbolic에서는 평균 79.1%(±3.0%)의 정확도를 기록했다. 이러한 결과는 GSM8K 테스트 세트의 일부가 모델 학습 데이터에 포함되었을 가능성을 시사한다.
문제의 변형 방식에 따른 성능 차이도 발견되었다. 문제의 고유명사만 바꾸는 경우보다 숫자값을 바꿀 때 성능 저하가 더 크게 나타났다. Phi-3-medium-128k-instruct 모델을 예로 들면, 고유명사만 바꿨을 때는 91.8%(±1.7%)의 정확도를 보였지만, 숫자값을 바꿨을 때는 89.0%(±2.3%)로 떨어졌다.
마지막으로, 문제의 복잡도가 증가할수록 모델의 평균 성능은 낮아지고 성능 편차는 커지는 경향이 관찰되었다. Gemma2-9b-it 모델의 경우, 가장 단순한 형태인 GSM-Symbolic-Minus-1(GSM-M1)에서 84.4%(±2.4%)의 정확도를 보였지만, 가장 복잡한 형태인 GSM-Symbolic-Plus-2(GSM-P2)에서는 41.8%(±6.0%)로 정확도가 크게 떨어졌다. 이는 모델들이 복잡한 수학적 추론을 수행하는 데 어려움을 겪고 있음을 보여준다.
형식적 추론보다 패턴 매칭에 의존
연구팀은 이러한 결과가 LLM이 진정한 의미의 형식적 추론을 수행하지 못하고 있음을 보여준다고 해석했다. 대신 LLM은 학습 데이터에서 본 패턴과 유사한 추론 단계를 매칭하는 방식으로 문제를 해결하는 것으로 보인다.
이러한 한계를 더욱 명확히 보여주기 위해 연구팀은 ‘GSM-NoOp’ 데이터셋을 추가로 제작했다. 이는 문제 해결에 불필요한 정보를 추가한 변형 문제들로 구성됐다. 예를 들어, “올리버가 금요일에 44개의 키위를 따고, 토요일에 58개를 땄다. 일요일에는 금요일의 두 배를 땄지만, 그 중 5개는 평균보다 약간 작았다. 올리버가 가진 키위는 총 몇 개인가?”와 같은 문제에서 크기가 작은 키위에 대한 정보는 문제 해결과 무관하다.
실험 결과 모든 최신 모델들의 성능이 최대 65%까지 급격히 저하되는 것으로 나타났다. Phi-3-mini 모델의 경우 65.7%의 성능 하락을 보였고, 가장 강력한 모델 중 하나인 o1-preview 모델도 17.5%의 성능 하락을 보였다. 이는 모델들이 문제의 맥락을 제대로 이해하지 못하고, 단순히 숫자가 나오면 연산을 수행하는 경향이 있음을 보여준다.
더 놀라운 점은, 같은 문제의 여러 변형을 예시로 제공하거나 유사한 불필요 정보를 포함한 예시를 제공해도 모델들의 성능이 크게 개선되지 않았다는 것이다. 이는 LLM의 추론 과정에 더 근본적인 문제가 있음을 시사한다.
연구의 의의와 향후 과제
연구를 주도한 이만 미르자데(Iman Mirzadeh) 박사는 “우리의 연구 결과는 현재 LLM들이 진정한 의미의 수학적 추론 능력을 갖추지 못했음을 보여준다”며 “앞으로 AI가 인간 수준의 인지 능력이나 일반 지능을 갖추려면 패턴 인식을 넘어 형식적 추론이 가능한 모델을 개발하는 것이 중요한 과제”라고 강조했다.
이번 연구는 LLM의 수학적 추론 능력에 대한 기존 평가 방식의 한계를 지적하고, 보다 신뢰할 수 있는 평가 프레임워크의 필요성을 제기했다는 점에서 의의가 있다. 연구팀은 GSM-Symbolic이 다양한 난이도와 변형을 통해 LLM의 수학적 추론 능력을 보다 정확하게 평가할 수 있을 것으로 기대하고 있다.
또한 이 연구는 LLM의 능력에 대한 과대평가 위험성을 경고하고 있다. 단순히 벤치마크 점수만으로 모델의 능력을 판단하는 것은 위험할 수 있으며, 더 깊이 있는 분석과 평가가 필요하다는 점을 강조하고 있다.
연구팀은 향후 연구 방향에 대해서도 제안했다. 패턴 인식을 넘어 진정한 형식적 추론이 가능한 AI 모델 개발이 필요하며, 이를 통해 더 강건하고 일반화 가능한 문제 해결 능력을 갖춘 시스템을 만들어야 한다고 주장했다.
이 논문은 현재 arXiv 프리프린트 서버를 통해 공개되어 있으며, 향후 peer review를 거쳐 정식 출판될 예정이다. AI 연구 커뮤니티에서는 이번 연구 결과에 대해 큰 관심을 보이고 있으며, LLM의 추론 능력 향상을 위한 새로운 접근 방식에 대한 논의가 활발히 이루어질 것으로 예상된다.
결론적으로, 이번 연구는 LLM의 수학적 추론 능력에 대한 우리의 이해를 크게 향상시켰다. 동시에 현재 AI 기술의 한계를 명확히 보여주며, 앞으로 해결해야 할 과제들을 제시하고 있다. AI가 진정한 의미의 지능을 갖추기 위해서는 아직 갈 길이 멀다는 점을 상기시키는 중요한 연구라고 할 수 있다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기