사람이 문제를 풀 때 과거 경험을 떠올려 더 나은 방법을 선택하듯, AI도 이제 경험을 통해 학습한다. AWS AI와 펜실베이니아대학교 연구진이 개발한 EGUR(Experience-Guided Reasoner)는 문제를 해결할 때마다 그 경험을 기억하고, 다음에 비슷한 문제가 나오면 더 효율적인 방법으로 접근하는 AI 시스템이다. 기존 AI가 매번 같은 방식으로 문제를 풀었다면, EGUR는 상황에 맞는 최적의 전략을 실시간으로 만들어낸다.
정확도는 높이고 비용은 100분의 1로, 경험이 만든 차이
EGUR는 다섯 가지 어려운 테스트에서 기존 최고 성능 시스템보다 최대 14% 더 정확한 답을 냈다. 특히 논리 문제인 3-SAT에서는 기존 시스템인 Mem0보다 14% 높은 정확도를 기록했다. 더 놀라운 건 비용이다. 사물 개수 세기 문제에서 EGUR는 기존 시스템인 Dynamic Cheatsheet보다 111배 적은 비용으로 더 정확한 답을 냈다. 게다가 이런 성능 향상은 시스템이 경험을 쌓을수록 더욱 두드러졌다.
연구진은 수학 경시대회 문제(AIME 2025), 논리 퍼즐(3-SAT), 그리고 영화 추천, 단어 정렬, 사물 개수 세기 같은 추론 문제에서 실험을 진행했다. Claude 3.7 Sonnet이라는 AI 모델을 사용한 결과, EGUR-5는 3-SAT 문제를 96.0%의 정확도로 풀면서 0.152달러의 비용만 들었다. 반면 CodeAct는 77.0%의 정확도에 0.257달러, Dynamic Cheatsheet는 89.9%의 정확도에 무려 76.353달러가 들었다.

전략을 만드는 전략, EGUR의 작동 원리
EGUR의 핵심 아이디어는 ‘전략을 만드는 전략’이다. 기존 AI 시스템들은 미리 정해진 문제 해결 방식을 사용하고, 단지 입력되는 텍스트만 조금씩 바꿨다. 하지만 EGUR는 각 문제마다 완전히 새로운 해결 방식을 실시간으로 만들어낸다. 이 시스템은 두 가지 핵심 부품으로 작동한다.
첫 번째는 ‘가이드(Guide)’다. 가이드는 현재 문제와 과거에 쌓인 경험을 바탕으로 여러 가지 해결 방법을 제안한다. 각 문제마다 여러 개의 방법을 만들어보는데, 많이 만들수록 더 다양한 시도가 가능하지만 그만큼 비용도 든다. 실험에서는 주로 5개씩 만들어봤다.
두 번째는 ‘통합자(Consolidator)’다. 통합자는 여러 방법을 실제로 시도해본 결과를 분석해서 기억으로 저장한다. 어떤 방법이 효과적이었는지, 어떤 실수가 반복되는지 등을 정리해둔다. 이 기억은 크게 두 종류로 나뉜다. 성공한 해결 방법을 문제 유형별로 저장하는 ‘전략 모음집’과, 일반적으로 유용한 팁과 주의사항을 정리한 ‘참고 노트’다.
연구진은 이런 전략을 수학적으로 정리하기 위해 ‘상태를 기억하는 과정’이라는 개념을 만들었다. 이는 입력을 받아 출력을 만들면서 동시에 내부 상태도 업데이트하는 함수로, 여러 단계를 순서대로 연결하거나 동시에 실행하거나 조건에 따라 다르게 동작하도록 만들 수 있다. 예를 들어 CodeAct라는 전략은 AI가 답을 내고 그 답으로 코드를 실행해보고 다시 답을 수정하는 과정을 반복한다.
문제마다 다른 최적의 방법, 만능 전략은 없다
연구진이 분석한 결과, 문제 유형에 따라 최적의 해결 방법이 완전히 달랐다. 클로드 3.7 Sonnet 모델을 사용한 실험에서 ‘Code’라는 전략은 논리 퍼즐과 단어 정렬에서 최고 성능을 보였지만, 수학 문제와 영화 추천에서는 최악의 성능을 기록했다. 비슷한 정확도를 가진 방법들 사이에서도 비용 차이가 컸다. ‘Eval-Opt’는 ‘Self-Consistency’와 비슷한 정확도를 내면서도 비용은 절반만 들었다.
흥미롭게도 더 복잡하고 유연한 방법이 반드시 더 좋은 결과를 내지는 않았다. 이론적으로는 복잡한 ‘에이전트’ 방식이 상황에 따라 단순한 방법을 흉내낼 수 있지만, 실제로는 적절한 선택을 하지 못하는 경우가 많았다. 심지어 성공하더라도 단순한 방법을 직접 쓰는 것보다 훨씬 많은 계산 비용이 들었다. 예를 들어 CodeAct는 가장 범용적인 방법이지만 대부분의 문제에서 최선의 선택이 아니었다.
EGUR는 이 문제를 해결하기 위해 여러 방법을 동시에 시도해보고 결과를 비교한다. 한 문제 당 여러 해결 방법을 만들고 실행해서 어떤 게 더 효과적인지 직접 확인하는 것이다. 실험 결과 단 하나의 방법만 시도하는 것보다 5개를 비교하는 게 대부분의 문제에서 더 나은 성능을 보였고, 특히 논리 퍼즐과 사물 개수 세기에서 큰 개선이 있었다.
학습된 전략의 실제 모습, 때로는 간단한 게 최고
EGUR가 실제로 어떤 걸 학습했는지 분석한 결과 몇 가지 일관된 패턴이 발견됐다. 코드를 사용하는 전략의 경우, EGUR는 어떤 프로그래밍 라이브러리를 쓸 수 있는지 명시하고, 유용한 코드 조각을 미리 포함시키며, 오류가 났을 때 어떻게 처리할지 추가하는 법을 배웠다. 더 일반적으로는 기본 방법이 실패할 때는 더 구체적으로 접근하되, 문제가 간단하면 오히려 단순하게 푸는 법을 익혔다.
특히 흥미로운 발견은 코드 실행 도구가 때로는 오히려 방해가 된다는 점이다. 사물 개수 세기 문제를 보면 직관적으로는 코드로 계산하는 게 좋을 것 같지만(많은 숫자를 더해야 하니까), EGUR는 상세한 지침이 담긴 단순한 질문 한 번으로 해결하는 방법으로 수렴했고 이게 더 정확하면서도 훨씬 저렴했다. 학습된 방법에는 텍스트를 어떻게 읽을지, 항목을 어떻게 분류할지, 수량 변화를 어떻게 처리할지에 대한 구체적인 안내가 포함됐다.
단어 정렬 문제에서도 EGUR는 두 가지 상황을 구분하는 법을 배웠다. 단순히 알파벳 순서로 정렬하는 문제에는 파이썬의 정렬 기능을 쓰고, 설명 속 논리적 오류를 찾는 문제에는 코드 대신 단계적 추론 방식을 사용했다. 이런 발견들은 EGUR가 도구를 쓸 때와 AI의 사고력에 의존할 때를 구분하고, 언제 계산을 많이 할지 적게 할지, 그리고 문제 특성에 맞게 질문 방식을 조정하는 실용적인 요령을 학습한다는 것을 보여준다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. EGUR는 기존의 기억 기능을 가진 AI와 어떻게 다른가요?
A. 기존 AI들은 과거 경험을 텍스트 형태로만 기억해서 질문에 덧붙이는 정도였습니다. EGUR는 기억을 바탕으로 문제 해결 방식 자체를 새로 만듭니다. 질문 문구뿐 아니라 AI의 답변 스타일 설정, 사용할 도구, 문제 풀이 순서까지 모두 상황에 맞게 바꿀 수 있어 훨씬 유연합니다.
Q2. EGUR의 비용 절감 효과는 어떻게 가능한가요?
A. EGUR는 문제 유형에 따라 딱 필요한 만큼만 계산합니다. 간단한 문제는 한 번의 질문으로, 복잡한 문제는 코드 실행이나 여러 번의 시도로 푸는 식입니다. 또한 이전에 성공한 방법을 저장해뒀다가 비슷한 문제가 나오면 바로 재사용하므로 반복 작업의 비용이 크게 줄어듭니다.
Q3. EGUR는 어떤 종류의 작업에 가장 효과적인가요?
A. EGUR는 수학 문제, 논리 퍼즐, 추론이 필요한 작업 등 다양한 분야에서 효과를 보였습니다. 특히 문제마다 최선의 접근법이 다르거나, 비슷한 유형의 문제가 자주 반복되거나, 비용을 줄이는 게 중요한 상황에서 큰 장점을 발휘합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Experience-Guided Adaptation of Inference-Time Reasoning Strategies
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






