인공지능(AI)이 인터넷을 검색해 답을 찾을 때 발생하는 비효율 문제를 해결할 새로운 기술이 나왔다. 중국과학원과 중국 소셜미디어 기업 샤오홍슈가 공동 개발한 ‘멤서처(MemSearcher)’는 기존 방식보다 성능을 평균 11~12% 높이면서도 컴퓨터 자원 사용을 크게 줄였다. 특히 30억 파라미터의 작은 모델이 일부 70억 파라미터 모델들보다 우수한 성능을 보여 효율적인 구조 설계의 중요성을 입증했다.
모든 대화 내용을 저장하면 AI가 느려진다
연구 논문에 따르면, 현재 AI 검색 시스템은 대부분 ‘리액트(ReAct)’라는 방식을 사용한다. 이는 검색 엔진을 도구처럼 활용해서 필요한 정보를 찾는 구조다. 문제는 AI가 사용자와 주고받은 모든 대화 내용을 계속 저장한다는 점이다. 질문부터 시작해서 AI의 생각, 검색 행동, 검색 결과까지 모든 것이 차곡차곡 쌓인다. 대화가 길어질수록 저장해야 할 내용이 기하급수적으로 늘어난다. 컴퓨터 메모리와 계산량이 엄청나게 증가하는 것이다. 계산량과 메모리 사용이 입력 정보(토큰) 수의 제곱에 비례해 증가하기 때문이다. 게다가 검색 결과에는 불필요한 정보도 많아서 AI의 판단력을 떨어뜨린다.
연구진은 기존 방식이 정보를 완벽하게 보존하지만 비용이 너무 많이 든다고 지적했다. 반대로 최근 대화 내용만 기억하면 비용은 줄지만 중요한 정보를 놓치게 된다. 이 둘 사이에서 균형을 찾는 것이 핵심 과제였다.
‘필수 정보만 남기는 메모장’ 방식으로 해결
멤서처는 완전히 다른 접근법을 택했다. 모든 대화 내용을 저장하지 않고, 질문에 답하는 데 꼭 필요한 정보만 골라서 ‘메모장’에 적는다. AI는 매번 사용자 질문과 이 메모장만 읽는다. 메모장 크기는 최대 1,024단어로 제한되어 있어서, 대화가 아무리 길어져도 AI가 처리할 정보량은 일정하다. 구체적으로 보면 이렇게 작동한다. AI는 먼저 질문과 이전 메모를 읽고 어떻게 답할지 생각한 뒤 검색을 시작한다. 검색 결과를 받으면 AI는 ‘메모 관리자’ 역할을 하며, 새로 얻은 정보 중에서 중요한 것만 골라 메모를 업데이트한다. 이 과정이 반복되는데 메모장 크기는 항상 일정하게 유지된다.
실험 결과는 효율성 면에서 큰 차이를 보였다. 기존 방식인 리서치(ReSearch) 모델은 10번 대화하면 평균 14,000단어 이상을 처리했다. 반면 멤서처는 2,000~3,000단어 수준을 유지하며 같은 작업을 해냈다. 컴퓨터 메모리 사용량도 8번 대화 기준으로 기존 방식이 24GB를 넘긴 반면, 멤서처는 20GB 이하로 유지됐다.
AI가 스스로 학습하는 새로운 훈련 방법
멤서처의 성능을 끌어올리기 위해 연구진은 ‘멀티컨텍스트 GRPO’라는 학습 방법을 개발했다. 이는 AI가 보상을 받으며 스스로 학습하는 ‘강화학습’ 방식이다. 기존 방법은 하나의 질문에 여러 가지 답변 경로를 시도해 본 뒤 가장 좋은 방법을 학습했다. 하지만 멤서처는 각 경로가 서로 다른 상황에서 여러 대화로 이루어지기 때문에 새로운 접근이 필요했다.
새 학습 방법은 각 대화 경로의 점수를 계산한 뒤, 그 경로에 속한 모든 대화에 같은 점수를 준다. 그다음 각 대화를 독립적으로 학습시킨다. 이를 통해 AI는 생각하기, 검색하기, 메모 관리하기를 동시에 배울 수 있다. 점수 계산 방식은 비교적 간단하다. 형식 점수와 답변 점수 두 가지로 나뉜다. 형식 점수는 AI가 정해진 답변 형식을 따르는지 확인한다. 답변 점수는 AI의 답과 정답이 얼마나 비슷한지 측정한다. 형식이 맞고 답도 정확하면 높은 점수를, 형식만 맞으면 낮은 점수를, 형식이 틀리면 0점을 준다.
효율적 구조가 모델 크기보다 중요하다
멤서처는 기존 연구와 똑같은 학습 자료를 사용했지만 모든 비교 대상을 크게 앞질렀다. 30억 개 파라미터를 가진 멤서처 모델은 7개 테스트에서 평균 43.8%의 정확도를 기록했다. 주목할 점은 이 작은 모델이 일부 70억 파라미터 기존 모델들보다 높은 성능을 보였다는 것이다. 70억 파라미터 멤서처는 평균 48.9%를 달성해 더욱 뛰어난 결과를 냈다. 이는 단순히 AI 크기를 키우는 것보다 구조와 메모리 관리 방식의 효율성이 더 중요할 수 있음을 보여준다. 작은 모델도 효율적인 정보 압축과 관리 능력을 배우면 일부 큰 모델들을 능가할 수 있다는 의미다.
간단한 질문 답변뿐만 아니라 여러 단계를 거쳐 추론해야 하는 복잡한 문제에서도 일관되게 좋은 성능을 보였다. 특히 수동으로 만든 어려운 질문 모음인 ‘밤부글’ 테스트에서 작은 멤서처는 42.4%를 기록해 같은 크기의 다른 모델보다 두 배 이상 높은 점수를 얻었다. 흥미로운 점은 실제 구글 검색을 사용하는 다른 AI들보다 로컬 데이터베이스만 쓰는 멤서처가 더 나았다는 것이다. 이는 효율적인 정보 관리가 단순히 많은 정보에 접근하는 것보다 중요할 수 있다는 걸 보여준다.
학습 없이는 성능 3분의 1 수준으로 떨어져
멤서처 구조를 사용하되 강화학습 훈련을 하지 않은 AI와 비교 실험도 했다. 결과는 명확했다. 훈련 없이는 30억 모델이 평균 14.4%, 70억 모델이 25.8%에 그쳤다. 반면 새로운 학습 방법으로 훈련한 후에는 각각 43.8%와 48.9%로 성능이 세 배 가까이 향상됐다. 훈련 과정을 살펴보면 초기 25단계 동안 점수가 급격히 올랐다. AI가 검색과 메모 관리의 기본을 빠르게 익힌 것이다. 그 후에는 점수 상승이 완만해졌는데, 이때는 검색 전략과 메모 관리를 세밀하게 조정하며 능력을 다듬는 단계로 분석된다.
검증 데이터에서도 비슷한 패턴이 나타났다. 100개 샘플로 20단계마다 확인한 결과, 훈련 점수와 마찬가지로 초기엔 빠르게, 이후엔 점진적으로 향상됐다. AI가 과도하게 학습 데이터에만 맞춰지지 않고 안정적으로 배우고 있다는 의미다.
‘선택적 망각’이 AI를 더 똑똑하게 만든다
멤서처가 주는 가장 큰 교훈은 “많은 정보”보다 “올바른 정보”가 중요하다는 점이다. 기존 AI들은 정보를 잃을까 봐 모든 대화 내용을 보관했지만, 멤서처는 과감하게 핵심만 남기는 전략으로 성능과 효율성을 모두 개선했다. AI 시스템을 만들 때 “선택적 망각”이 오히려 더 나은 결과를 가져올 수 있다는 걸 증명한 것이다. 특히 작은 모델이 일부 큰 모델들을 능가한다는 사실은 산업계에 중요한 의미가 있다. 멤서처 30억 모델이 일부 70억 모델들보다 뛰어난 성능을 낸 것은 단순히 AI를 키우는 것보다 효율적인 구조와 학습 방법이 더 중요하다는 뜻이다. 이는 비용 효율적인 AI 개발의 새로운 방향을 제시한다.
여러 기능을 따로 최적화하지 않고 한꺼번에 학습시키는 방법도 주목할 만하다. 이 접근법은 생각하기, 검색하기, 메모 관리하기를 별도로 훈련하지 않고 하나의 통합 시스템으로 학습시킨다. 복잡한 AI 시스템에서 각 부분 간 상호작용을 고려한 전체적인 최적화가 중요함을 보여준다. 마지막으로 멤서처의 메모 관리 방식은 긴 대화나 복잡한 작업을 하는 AI에 널리 쓰일 수 있다. 고객 서비스 챗봇, 개인 비서, 연구 도우미 등 대화 맥락을 효율적으로 관리해야 하는 곳이라면 어디든 멤서처의 방법이 실용적인 해결책이 될 것으로 보인다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 멤서처가 기존 방식과 어떻게 다른가요?
A: 기존 방식은 대화 내용을 전부 저장하지만, 멤서처는 필요한 정보만 골라서 메모장에 적습니다. 메모장 크기는 최대 1,024단어로 제한되어 있어서 대화가 길어져도 AI가 처리할 정보량은 일정하게 유지됩니다. 이 덕분에 비용도 줄고 성능도 좋아집니다.
Q2. 작은 AI가 일부 큰 AI보다 성능이 좋은 이유는 뭔가요?
A: 멤서처는 정보를 효율적으로 압축하고 관리하기 때문에 AI 크기보다 구조와 학습 방법이 더 중요합니다. 30억 파라미터의 작은 멤서처가 불필요한 정보를 버리고 핵심만 유지하는 능력을 배우면서 일부 70억 파라미터 기존 모델들보다 효과적으로 작동할 수 있게 된 것입니다.
Q3. 멤서처는 어디에 쓸 수 있나요?
A: 복잡한 질문에 답하기, 여러 단계 추론이 필요한 연구 보조, 긴 대화를 유지해야 하는 고객 서비스, 개인 비서 등 대화 흐름을 효율적으로 관리해야 하는 모든 AI 분야에 활용 가능합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.








