Search

AI, 오래 생각한다고 똑똑해질까? 답은 ‘아니오’

AI 매터스 기사 썸네일_Batched Contextual Reinforcement A Task-Scaling Law for Efficient Reasoning
이미지 출처: 이디오그램 생성

일리노이 대학 연구팀이 2026년 4월 발표한 연구에 따르면 AI가 문제를 풀 때 길게 생각한다고 해서 항상 정확한 답을 내는 건 아니다. 오히려 쓸데없이 긴 사고 과정을 절반 이상 줄였더니 토큰 사용을 최대 62.6% 줄이면서 일부 벤치마크에서 정확도가 향상되었다. 마치 시험 때 같은 답을 10번 지우고 다시 쓰는 학생처럼, AI도 불필요하게 같은 생각을 반복하고 있었던 것이다.

3만 토큰을 쓰고도 문제 틀린 AI vs 2천 토큰으로 정답 맞힌 AI

연구진이 수학 문제를 풀게 했더니 기존 AI는 무려 3만 토큰을 사용하고도 실패한 반면 새로운 방법으로 훈련한 AI는 2,700토큰으로 계산하고 정답을 냈다. 12배 적게 생각했는데 실패에서 성공으로 바뀐 것이다.

문제는 AI가 멍청해서가 아니었다. 훈련 방식이 잘못됐기 때문이다. 기존 방식은 AI에게 “이 문제 하나만 풀어봐” 하고 맡겼다. 그러자 AI는 시간 제한 없이 같은 계산을 수십 번 재확인하고, 이미 맞는 답인데도 “잠깐, 다시 볼까?” 하며 토큰(AI가 생각할 때 쓰는 단위)을 낭비했다.

한 번에 여러 문제 풀게 했더니 스스로 효율적으로 변했다

연구팀은 간단한 아이디어를 냈다. AI에게 “3개 문제를 동시에 풀되, 전체 5,120토큰 내에서 다 풀어” 하고 제한을 뒀다. 그러자 놀라운 일이 벌어졌다. AI가 스스로 토큰을 아끼기 시작한 것이다. 첫 번째 문제에 너무 많이 쓰면 나중 문제를 못 푸니까 자연스럽게 효율적으로 생각하는 법을 배웠다.

실제 결과는 기대 이상이었다. 어려운 수학 경시대회 문제에서 AI 정확도가 70%에서 83%로 올랐고, 토큰 사용은 모델에 따라 약 16%~62.6%까지 감소했다. 다른 시험에서는 정확도 100% 달성하면서 계산을 32% 줄였다. 효율과 정확도가 동시에 좋아진 것이다.

연구진은 이를 ‘공짜 점심’이라고 불렀다. 보통은 빠르게 하려면 정확도가 떨어진다고 생각하는데, 이번 연구는 그 반대였다. 불필요한 반복이 오히려 AI를 헷갈리게 만들었던 것이다.

동시에 푸는 문제가 많을수록 문제당 비용 감소

더 흥미로운 발견도 있었다. 동시에 푸는 문제 개수를 늘릴수록 문제 하나당 드는 비용이 계속 줄어들었다. 1개씩 풀 때는 문제당 1,868번 계산했는데, 5개를 동시에 풀게 하자 839번으로 줄었다. 절반 이하가 된 것이다.

기존 AI는 어땠을까? 5개를 동시에 풀게 하자 정확도가 85%에서 22%로 폭락했다. 거의 찍는 수준이 됐다. 하지만 새 방식으로 훈련한 AI는 87%에서 50%로 떨어져서 여전히 쓸 만한 수준을 유지했다.

이제 사용자는 상황에 맞게 선택할 수 있다. 정확도가 최우선이면 1개씩 풀게 하고, 비용이 중요하면 5개씩 동시에 풀게 하면 된다. 마치 택배를 빠른 배송으로 받을지 일반 배송으로 받을지 선택하는 것과 비슷하다.


그림 2. BCR 학습 구조도. 여러 문제를 묶어 제한된 토큰으로 동시 해결하도록 훈련
그림 2. BCR 학습 구조도. 여러 문제를 묶어 제한된 토큰으로 동시 해결하도록 훈련


“짧게 써”라고 명령하면 오히려 학습이 망가진다

그럼 처음부터 AI에게 “짧게 생각해”라고 명령하면 안 될까? 연구진이 실험해봤더니 재앙이 일어났다. AI가 정확한 답 찾기를 포기하고 무조건 짧게만 쓰는 법을 배운 것이다. 마치 “글자 수 줄이면 점수 준다”고 하자 답은 안 쓰고 이름만 쓴 시험지 같았다.

문제는 “정확하게 풀어(+10점)”와 “짧게 써(+5점)”라는 두 명령이 서로 싸웠다는 것이다. AI 입장에서는 길게 쓰면 점수를 깎이니 아예 안 쓰는 게 나았다. 결과는 엉터리 답뿐이었다.

새로운 방식은 달랐다. “5,120번 안에서는 마음껏 써도 돼. 단, 문제를 못 풀면 0점”이라고 했다. 제한 안에서는 자유롭고, 벌은 답을 못 맞혔을 때만 받는다. 이렇게 하자 AI가 안정적으로 학습했다.

AI가 스스로 터득한 4가지 효율 비법

연구진이 AI의 사고 과정을 들여다봤더니 4가지 습관이 생겼다.

첫째, 쓸데없는 재확인을 멈췄다. 기존 AI는 “잠깐, 이거 맞나? 다시 볼까?”를 수십 번 반복했다. 이미 맞는 계산인데 말이다. 새 AI는 한 번 확인하면 바로 다음으로 넘어갔다.

둘째, 최선의 방법을 바로 골랐다. 기존 AI는 여러 풀이법을 다 시도해보고 골랐다면, 새 AI는 가장 빠른 길을 바로 선택했다.

셋째, 설명을 생략했다. 기존 AI는 “거듭제곱의 거듭제곱은 지수끼리 곱합니다”처럼 이미 아는 내용을 자꾸 설명했다. 새 AI는 그냥 계산만 했다.

넷째, 헛소리 직전에 멈췄다. 기존 AI는 너무 길게 생각하다가 끝에 가서 “2 2 1 11…” 같은 의미 없는 숫자를 뱉었다. 새 AI는 정해진 계산 횟수 안에서 답을 확정했다.

중요한 건 AI가 계산 단계를 건너뛴 게 아니라는 점이다. 필요한 계산은 다 했다. 단지 불필요한 반복만 없앴을 뿐이다. 그래서 빨라지면서도 정확해진 것이다.

효율 학습의 원리와 아직 해결되지 않은 질문들

이번 연구의 핵심은 단순하다. AI는 이미 효율적으로 생각할 능력이 있었다. 단지 기존 훈련 방식이 그 능력을 꺼내지 못했을 뿐이다.

한 문제씩 풀게 하면 AI는 “열심히 한 것처럼 보이면 점수를 더 받는다”고 오해한다. 실제로는 쓸데없는 반복이었지만 학습 과정에서 구별할 방법이 없었다. 여러 문제를 동시에 제한된 자원으로 풀게 하자 불필요한 부분이 실제 손해로 이어졌고, AI는 자연스럽게 효율을 배웠다.

다만 몇 가지 확인할 점이 남아 있다. 이번 연구는 15억~40억 개 파라미터 규모 모델에서 검증됐다. 700억 개처럼 훨씬 큰 모델에서도 같은 효과가 나올지는 아직 모른다. 또 수학 말고 다른 분야(코딩, 과학 추론 등)에서도 통할지 추가 연구가 필요하다.

그래도 방향은 명확해 보인다. 복잡한 기술로 억지로 가르쳐야 할 것처럼 보이는 능력들이 사실은 학습 환경만 바꿔도 저절로 생길 수 있다. AI 개발에서 ‘어떻게 가르치느냐’만큼 ‘어떤 환경에서 배우게 하느냐’가 중요하다는 교훈이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 새로운 학습 방법이 기존과 뭐가 다른가요?

A. 기존에는 AI에게 문제를 하나씩 주고 맞히면 점수를 줬습니다. 새 방법은 여러 문제를 한꺼번에 주되 계산 횟수를 제한해서 AI가 스스로 효율적으로 생각하는 법을 배우게 했습니다. 별도의 복잡한 기술 없이 단순히 문제 주는 방식만 바꿨는데 효과가 있었습니다.

Q. 공짜 점심 효과가 뭔가요?

A. 보통 빠르게 하려면 정확도가 떨어진다고 생각합니다. 하지만 이번 연구에서는 계산을 절반으로 줄였는데 오히려 정확도가 올라가는 경우가 많았습니다. 불필요한 반복이 AI를 헷갈리게 만들었던 것이죠. 마치 시험에서 답을 너무 많이 고치다가 오히려 틀리는 것과 비슷합니다.

Q. 이 기술을 실제로 어디에 쓸 수 있나요?

A. 챗봇 서비스에서 비용과 속도를 조절하는 데 쓸 수 있습니다. 정확한 답이 꼭 필요한 경우엔 한 번에 한 질문씩 처리하고, 대략적인 답으로 충분한 경우엔 여러 질문을 한꺼번에 처리해 비용을 줄일 수 있습니다. 상황에 맞게 선택할 수 있는 것이죠.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI 매터스 유튜브 구독자 추첨 도서 증정 이벤트 배너_박태웅의 AI 강의 2026 증정