Search

알리바바, 스스로 암기·삭제하는 AI 개발… 기존보다 성능 49% 향상

Image
이미지 출처: 이디오그램 생성

대화형 AI가 사람처럼 중요한 정보는 기억하고 불필요한 정보는 잊어버리는 기술이 개발됐다. 알리바바와 중국 우한대학교 연구팀은 AI가 스스로 무엇을 저장하고 삭제할지 결정하는 ‘에이전틱 메모리(Agentic Memory, AgeMem)’ 시스템을 개발했다. 해당 연구 논문에 따르면, 이 기술은 기존 방식보다 최대 49% 더 나은 성능을 보였다.

AI 기억력의 한계, 새로운 방식으로 돌파

지금까지 대화형 AI는 한 번에 처리할 수 있는 정보량이 제한되어 있었다. 긴 대화나 복잡한 작업을 할 때 앞에서 나눈 이야기를 잊어버리는 문제가 발생했다. 기존 연구들은 장기 기억과 단기 기억을 따로따로 관리했다. 이 방식은 미리 정해진 규칙에 따라 움직여서 상황에 맞춰 유연하게 대응하기 어려웠다.

연구팀이 만든 에이전틱 메모리는 AI에게 6가지 기억 관리 도구를 제공한다. AI는 이 도구들을 스스로 선택해서 사용할 수 있다. 장기 기억 관리를 위해서는 새로운 정보를 추가하는 ‘ADD’, 저장된 정보를 수정하는 ‘UPDATE’, 불필요한 정보를 삭제하는 ‘DELETE’ 도구가 있다. 단기 기억 관리를 위해서는 저장된 정보를 꺼내 오는 ‘RETRIEVE’, 대화 내용을 요약하는 ‘SUMMARY’, 관련 없는 내용을 걸러내는 ‘FILTER’ 도구가 있다.

기존 시스템들은 장기 기억과 단기 기억을 별도로 관리하고 나중에 연결했다. 에이전틱 메모리는 처음부터 두 가지 기억을 하나로 묶어서 관리한다. AI가 상황을 보고 어떤 도구를 언제 사용할지 스스로 판단한다.

   AI    49


3단계 학습법으로 기억 관리 능력 키워

연구팀은 AI에게 기억 관리 방법을 가르치기 위해 3단계 학습 방법을 개발했다.

1단계에서는 AI가 일상적인 대화를 나누면서 중요한 정보를 장기 기억에 저장하는 법을 배운다. 2단계에서는 AI에게 관련 없는 잡다한 정보를 주입한다. AI는 필요 없는 정보를 걸러내고 중요한 정보만 단기 기억에 남기는 연습을 한다. 3단계에서는 실제 문제를 풀면서 저장했던 장기 기억과 정리한 단기 기억을 함께 활용하는 법을 익힌다.

여기서 핵심은 1단계에서 저장한 장기 기억이 2단계와 3단계에서도 계속 유지된다는 점이다. 반면 단기 기억은 1단계가 끝나면 초기화된다. 이렇게 해야 AI가 앞 단계의 정보를 그냥 기억하는 게 아니라, 제대로 저장하고 꺼내 쓰는 법을 배울 수 있다.

연구팀은 AI가 학습할 때 최종 결과를 앞 단계의 모든 행동과 연결했다. 마지막에 문제를 잘 풀었다면, 1단계에서 정보를 잘 저장한 것도 칭찬받고, 2단계에서 불필요한 정보를 잘 걸러낸 것도 칭찬받는다. 반대로 실패하면 모든 단계의 행동이 함께 교정된다.

AI의 학습 성과를 측정하기 위해 세 가지 항목을 평가했다. 첫째, 문제를 제대로 해결했는가. 둘째, 대화 내용을 효율적으로 관리했는가. 셋째, 가치 있는 정보를 장기 기억에 잘 저장했는가. 이 세 가지를 모두 고려해서 AI를 훈련시켰다.

5개 테스트 평균 성능 1위…기존 시스템 모두 제쳐

연구팀은 개발한 시스템을 5가지 다른 과제로 시험했다. ALFWorld(가상 환경에서 집안일하기), SciWorld(과학 실험하기), PDDL(계획 세우기), BabyAI(지시 따르기), HotpotQA(여러 단계 거쳐 질문 답하기) 등이다. 해당 시험은 두 가지 AI 모델(Qwen2.5-7B-Instruct, Qwen3-4B-Instruct)로 테스트했다.

평균 성능에서 모든 기존 방식을 앞섰다. Qwen2.5-7B 모델에서 에이전틱 메모리는 평균 41.96%의 성공률을 기록했다. 기억 기능이 없는 일반 AI는 28.05%에 그쳤다. 약 49% 더 나은 성능이다. Qwen3-4B 모델에서는 54.31%로, 일반 AI의 43.97%보다 약 24% 향상됐다.

기존의 다른 기억 시스템들(LangMem, A-Mem, Mem0)과 비교해도 에이전틱 메모리가 가장 우수했다. 가장 좋은 기존 시스템보다 4.82~8.57%포인트 더 높은 점수를 받았다.

저장된 정보의 품질도 측정했다. Qwen2.5-7B 모델에서 0.533점, Qwen3-4B 모델에서 1점 만점 중 0.605점을 받았다. 기존 시스템들보다 훨씬 높은 점수다. 이는 AI가 정말 중요한 정보를 선별해서 저장한다는 뜻이다.

대화 내용 관리 능력도 확인했다. 에이전틱 메모리는 기존 방식보다 사용하는 정보량을 3~5% 줄였다. 불필요한 내용을 잘 걸러내서 효율적으로 작동한 것이다.

학습 전후 비교했더니 도구 사용법 제대로 익혔다

AI가 정말 도구 사용법을 배웠는지 확인하기 위해 학습 전후를 비교했다. 학습 전에는 ADD(정보 추가) 도구를 대화당 평균 0.92번 사용했다. 학습 후에는 1.64번으로 늘었다. UPDATE(정보 수정) 도구는 학습 전에는 거의 사용하지 않았지만, 학습 후에는 0.13번 사용했다.

단기 기억 도구 사용도 균형을 찾았다. FILTER(불필요한 정보 걸러내기) 사용이 0.02번에서 0.31번으로 크게 늘었다. AI가 상황에 맞춰 적극적으로 정보를 관리하기 시작한 것이다.

연구팀은 장기 기억과 단기 기억을 따로 관리할 때와 함께 관리할 때를 비교했다. 장기 기억만 추가했을 때보다, 단기 기억 관리를 함께하면 성능이 더 올랐다. 특히 SciWorld에서는 3.1%포인트, HotpotQA에서는 2.4%포인트 추가 향상이 있었다. 두 가지 기억을 통합 관리하는 것이 확실히 효과적이라는 증거다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 에이전틱 메모리는 기존 AI와 어떻게 다른가요?

A: 기존 AI는 정보를 저장하고 꺼내는 방법이 미리 정해져 있었습니다. 프로그래머가 만든 규칙에 따라 움직였죠. 에이전틱 메모리는 AI가 스스로 판단합니다. 지금 이 정보가 중요한지, 나중에 필요할지, 아니면 지금 당장만 쓸 건지를 AI가 결정합니다. 마치 사람이 중요한 약속은 메모장에 적고, 덜 중요한 건 그냥 머릿속에만 담아두는 것처럼요.

Q2. 3단계 학습은 어떻게 진행되나요?

A: 1단계는 정보 수집 단계입니다. AI가 대화를 나누며 중요한 정보를 골라 저장합니다. 2단계는 정보 정리 단계입니다. 쓸모없는 정보가 섞여 들어오면, AI는 진짜 필요한 것만 남기고 나머지는 버립니다. 3단계는 실전 단계입니다. 저장했던 정보를 꺼내고, 정리한 내용을 활용해서 실제 문제를 풉니다. 마지막 결과가 좋으면 앞 단계의 모든 선택이 칭찬받고, 나쁘면 모두 개선됩니다.

Q3. 어디에 활용할 수 있나요?

A: 긴 대화를 나눠야 하는 곳이면 어디든 유용합니다. 고객 상담 챗봇이 손님의 과거 문의 내역을 기억하고 맞춤 답변을 할 수 있습니다. 교육 보조 AI는 학생의 학습 스타일과 약한 부분을 기억해서 개인별 커리큘럼을 만들어줄 수 있습니다. 개인 비서 AI는 사용자의 선호도와 일정을 기억해서 더 정확한 제안을 할 수 있습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




알리바바, 스스로 암기·삭제하는 AI 개발... 기존보다 성능 49% 향상