The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
최신 AI 추론 모델들, 복잡한 문제에서 완전히 무력화되다
오픈AI(OpenAI)의 o1/o3, 딥시크(DeepSeek)-R1, 클로드(Claude) 3.7 소네트 싱킹(Thinking), 제미나이(Gemini) 싱킹 등 대형 추론 모델(Large Reasoning Models, LRM)들이 등장하면서 AI 추론 능력의 혁신적 발전에 대한 기대가 높아지고 있다. 이들 모델은 긴 사고 과정(Chain-of-Thought)과 자기 성찰 메커니즘을 특징으로 하며, 다양한 추론 벤치마크에서 우수한 성과를 보여주고 있다. 하지만 애플(Apple) 연구진이 발표한 연구는 이러한 모델들의 근본적인 한계를 드러내고 있다.
애플 연구진은 통제 가능한 퍼즐 환경을 통해 문제 복잡성과 추론 능력의 관계를 체계적으로 분석했다. 그 결과 최첨단 추론 모델들도 특정 복잡성 임계점을 넘어서면 정확도가 완전히 붕괴되는 현상을 발견했다. 더욱 놀라운 것은 이들 모델이 복잡성이 증가할수록 초기에는 추론 노력을 늘리다가 임계점 근처에서는 오히려 추론 노력을 줄이는 역설적 행동을 보인다는 점이다.
기존 AI 평가 시험에 숨겨진 ‘부정행위’ 의혹과 새로운 검증법
기존 추론 모델 평가가 주로 수학 문제와 코딩 벤치마크에 의존해왔다면, 이번 연구는 완전히 새로운 접근 방식을 제시했다. 연구진은 매쓰(MATH)-500과 아이메(AIME) 벤치마크에서 나타나는 문제점들을 지적했다. 특히 아이메24(AIME24)에서 아이메25(AIME25)로 넘어가면서 모델 성능이 오히려 저하되는 현상을 발견했는데, 실제 인간의 성능은 아이메25에서 더 높았다는 점에서 데이터 오염 가능성을 강하게 시사한다.
이에 대응해 연구진은 하노이 탑, 체커 점프, 강 건너기, 블록 월드 등 4가지 퍼즐 환경을 설계했다. 이들 환경은 복잡성을 세밀하게 조절할 수 있고, 기존 벤치마크에서 흔한 데이터 오염 문제를 피할 수 있으며, 명시적으로 제공된 규칙만을 요구해 알고리즘적 추론을 강조한다. 또한 시뮬레이터 기반의 엄격한 평가를 통해 정확한 해답 검증과 상세한 실패 분석이 가능하다는 장점을 가진다.
쉬운 문제는 일반 AI가, 어려운 문제는 둘 다 포기하는 충격적 결과
연구 결과 추론 모델과 일반 언어 모델 간의 성능 비교에서 세 가지 뚜렷한 구간이 나타났다. 첫 번째는 저복잡성 구간으로, 놀랍게도 일반 언어 모델이 추론 모델보다 더 높은 정확도와 토큰 효율성을 보였다. 이는 간단한 문제에서는 복잡한 사고 과정이 오히려 방해가 될 수 있음을 시사한다.
두 번째는 중간 복잡성 구간으로, 추론 모델의 장점이 명확히 드러나는 영역이다. 이 구간에서 추론 모델들은 긴 사고 과정을 통해 일반 모델보다 우수한 성능을 발휘했다. 하지만 세 번째 고복잡성 구간에서는 두 모델 유형 모두 완전한 성능 붕괴를 경험했다.
특히 주목할 점은 붕괴 지점 근처에서 추론 모델들이 충분한 토큰 예산이 있음에도 불구하고 추론 노력을 줄이기 시작한다는 것이다. 이는 현재 추론 모델들이 문제 복잡성에 따른 근본적인 확장 한계를 가지고 있음을 보여준다.
정답 공식까지 알려줘도 실행 못 하는 AI의 근본적 한계
연구진이 발견한 가장 놀라운 결과 중 하나는 추론 모델들의 정확한 연산 수행 능력의 한계다. 하노이 탑(Tower of Hanoi) 퍼즐에서 연구진이 완전한 해결 알고리즘을 프롬프트에 제공했음에도 모델들의 성능은 개선되지 않았다. 알고리즘을 새로 발견하고 설계하는 것이 주어진 알고리즘을 단순히 실행하는 것보다 훨씬 더 많은 계산을 요구함에도 불구하고 말이다.
이는 추론 모델들이 단순히 문제 해결 전략 발견에만 어려움을 겪는 것이 아니라, 논리적 단계를 일관되게 실행하는 검증 능력에서도 근본적인 한계를 가지고 있음을 보여준다. 클로드 3.7 소네트 싱킹 모델의 경우 하노이 탑에서는 100번째 이동까지 정확한 해를 제시할 수 있었지만, 강 건너기(River Crossing) 퍼즐에서는 4번째 이동부터 오류를 범했다.
간단한 문제에선 ‘과도한 고민’, 퍼즐 종류별로 천차만별인 성능
연구진은 추론 모델들의 내부 사고 과정을 상세히 분석하여 복잡성에 따른 흥미로운 패턴을 발견했다. 간단한 문제에서는 모델들이 초기에 정답을 찾고도 계속해서 잘못된 대안을 탐색하는 ‘과도한 사고(overthinking)’ 현상을 보였다. 이는 컴퓨팅 자원의 낭비로 이어진다.
중간 복잡성 문제에서는 이 패턴이 역전되어 모델들이 먼저 잘못된 해를 탐색한 후 나중에 올바른 해에 도달하는 양상을 보였다. 마지막으로 고복잡성 문제에서는 모델들이 사고 과정 전반에 걸쳐 올바른 해를 전혀 생성하지 못하는 완전한 붕괴 상태에 빠졌다.
이러한 분석은 현재 추론 모델들의 자기 교정 능력이 제한적이며 근본적인 비효율성과 명확한 확장 한계를 가지고 있음을 보여준다. 연구진은 “이들 모델이 패턴 매칭의 다른 형태를 활용하는 것인지, 아니면 진정한 일반화 가능한 추론 능력을 갖고 있는지에 대한 중요한 질문을 제기한다”고 밝혔다.
FAQ
Q: 추론 AI 모델이 일반 AI 모델보다 항상 더 좋은 성능을 보이나요?
A: 아닙니다. 연구 결과에 따르면 간단한 문제에서는 오히려 일반 AI 모델이 더 효율적이고 정확한 성능을 보입니다. 추론 모델의 장점은 중간 복잡성의 문제에서만 나타나며, 매우 복잡한 문제에서는 두 모델 모두 성능이 크게 떨어집니다.
Q: 왜 추론 AI 모델이 복잡한 문제에서 더 적게 생각하게 되나요?
A: 연구진은 이를 추론 모델의 근본적인 확장 한계로 설명합니다. 복잡성이 임계점을 넘어서면 모델들이 충분한 토큰 예산이 있음에도 불구하고 추론 노력을 줄이기 시작하는데, 이는 현재 추론 기술의 내재적 한계를 보여주는 현상입니다.
Q: 알고리즘을 직접 제공해도 AI가 실행하지 못하는 이유는 무엇인가요?
A: 이는 추론 AI 모델들이 논리적 단계를 일관되게 실행하는 검증 능력에서 근본적인 한계를 가지고 있기 때문입니다. 단순히 문제 해결 전략을 찾는 것뿐만 아니라 주어진 알고리즘을 정확히 따르는 것에서도 어려움을 겪고 있어 추가 연구가 필요한 상황입니다.
해당 기사에 인용한 리포트 원문은 애플에서 확인 가능하다.
이미지 출처: 이디오그램 생성
이 기사는 챗GPT와 클로드를 활용해 작성되었습니다.