Search

AI가 긴 글을 읽다 ‘졸기’ 시작하는 문제, 메모리로 해결됐다

AI 매터스 기사 썸네일_MemDLM Memory-Enhanced DLM Training
이미지 출처: 이디오그램 생성

AI도 긴 글을 읽으면 앞 내용을 잊는다. 정확히는, 훈련할 때 배운 방식과 실제로 글을 만들어낼 때의 방식이 달라서 생기는 문제다. 2026년 3월, 홍콩중문대학교와 화웨이 기술(Huawei Technologies) 연구진이 이 간극을 메우는 새로운 학습 방법 ‘MemDLM’을 발표했다. AI가 수천 단어짜리 문서에서도 정보를 정확히 찾아내는 능력이 서비스 경쟁력의 핵심이 된 지금, 이 연구는 문제의 원인과 해결책을 동시에 제시한다.


AI가 긴 글 앞에서 실수하는 진짜 이유

시험 공부는 교과서를 보면서 했는데, 막상 시험장에는 지난 오답 노트만 들고 들어가야 하는 상황을 상상해보자. 이것이 확산 언어 모델(Diffusion Language Model)이 매번 글을 생성할 때 처하는 상황이다.

확산 언어 모델은 처음에 문장 전체를 가리개로 덮어두고 여러 단계에 걸쳐 가리개를 조금씩 벗겨내는 방식으로 글을 완성한다. 챗GPT(ChatGPT)처럼 단어를 왼쪽에서 오른쪽으로 하나씩 쓰는 방식과 다르다. 이론적으로는 문장 전체를 한꺼번에 보면서 글을 다듬을 수 있어 더 유연하다는 장점이 있다.

문제는 훈련 방식에 있다. 훈련할 때 모델은 항상 ‘일부가 마스킹된 원본인 데이터’를 받아 한 번에 답을 맞히는 연습만 한다. 그런데 실제로 글을 생성할 때는 이전 단계에서 자기 자신이 만들어낸 불완전한 결과물을 입력으로 받는다. 초반의 작은 실수가 눈덩이처럼 불어나고, 글이 길어질수록 모델은 점점 자기 자신의 출력을 제대로 처리하지 못하게 된다. 연구진은 이를 ‘노출 편향(Exposure Bias)’이라고 부른다.

메모리를 파라미터 안에 집어넣는다는 발상

MemDLM의 해결책은 단순하지만 영리하다. 훈련 중에 실제 글 생성 과정을 미리 연습시키되, 그 경험을 모델 파라미터 안에 임시로 기록해두는 것이다.

이 임시 기억을 연구진은 ‘매개변수 기억(Parametric Memory)’이라고 부른다. 긴 글을 읽을 때 사람이 중요한 내용을 머릿속에 요약해두는 것처럼, 모델이 현재 처리 중인 샘플의 맥락 흐름을 파라미터 값 자체에 압축해 저장하는 방식이다. 외부 메모리 모듈을 붙이거나 구조를 바꾸는 게 아니라, 기울기 업데이트 과정 자체가 기억을 만들어낸다는 점이 핵심이다.

이 구조는 이중 최적화(Bi-level Optimization)라는 방식으로 작동한다. 내부 루프에서 빠른 가중치(Fast Weights)가 현재 샘플의 탈노이즈 과정을 짧게 시뮬레이션하면서 문맥 흐름을 흡수한다. 외부 루프는 이 기억을 참고해 기본 모델 전체를 업데이트한다. 훈련이 끝나면 빠른 가중치는 유지되지 않지만, 그 경험은 기본 모델의 내부 표현 방식 자체를 더 견고하게 바꿔놓는다.

건초더미 속 바늘 찾기, 최대 23.92점 향상

연구진은 ‘Needle-in-a-Haystack(건초더미 속 바늘 찾기)’이라 불리는 벤치마크로 성능을 검증했다. 수천 단어짜리 문서 안에 숨겨진 특정 정보를 정확히 찾아내는 테스트다. 수백 페이지 계약서에서 특정 조항 하나를 찾아야 하는 상황과 비슷하다.

LLaDA-MoE 모델에 MemDLM을 적용한 결과, 8천 토큰 길이 문서에서 변수 추적 과제의 정확도가 78.8%에서 95.8%로 올랐다. 단순히 숫자가 좋아진 수준이 아니라, 오답이 정답이 되는 경계가 바뀐 것이다. LLaDA2.1 모델은 같은 조건에서 BABILong 벤치마크 점수가 47.4%에서 57.0%로 개선됐다. 일부 설정에서는 평균 기준에서 최대 향상치가 23.92점에 달했다.

더 흥미로운 결과는 따로 있다. MemDLM은 추론 시점에 내부 루프를 사용하지 않는 설정에서도 기존 모델보다 성능이 뚜렷이 높았다. 훈련 과정에서 기본 모델의 내부 표현 자체가 달라졌기 때문이다. 또한 모델이 원래 훈련된 8천 토큰 범위를 넘어선 16K, 32K로 확장 시 전체 성능은 감소하지만, 여전히 기존 모델 대비 우수한 결과를 유지했다. 매개변수 기억이 특정 길이에 과적합된 게 아니라 장기 문맥 처리 능력 자체를 개선했을 가능성을 시사한다.

적을수록 좋은 기억의 역설

연구에서 반복적으로 나타난 흥미로운 패턴이 있다. 더 많이, 더 깊이 최적화할수록 오히려 결과가 나빠졌다.

내부 루프 업데이트를 전체 레이어의 마지막 10%에만 적용했을 때 가장 좋은 성능이 나왔다. 범위를 25%, 50%로 넓힐수록 성능은 떨어졌다. 내부 루프 단계를 기본 2단계에서 3단계, 4단계로 늘리면 훈련 손실은 줄어들지만 실제 정보 검색 성능은 되레 낮아졌다.

여기서 도출되는 결론은 하나다. 낮은 훈련 손실이 더 나은 성능을 보장하지 않는다. 내부 루프가 지나치게 보조 경로에 특화될 경우, 모델이 실제로 필요한 핵심 맥락 정보를 오히려 놓치게 된다. 기억의 질은 기억의 양이 아니라, 어디에 어떻게 기록하느냐에 달려 있다는 것이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 확산 언어 모델이 뭔가요? 챗GPT와 다른 건가요? 챗GPT처럼 널리 쓰이는 모델은 단어를 왼쪽에서 오른쪽으로 하나씩 순서대로 만들어냅니다. 확산 언어 모델은 처음에 문장 전체를 가리개로 덮어두고 단계적으로 가리개를 벗겨내면서 글을 완성합니다. 양방향 맥락을 동시에 활용할 수 있어 긴 문서 이해나 유연한 글 편집에 유리하지만, 아직 실용화 초기 단계입니다.

Q. MemDLM의 ‘매개변수 기억’은 일반적인 AI 메모리와 어떻게 다른가요? 일반적으로 AI가 맥락을 기억하는 방식은 어텐션(Attention) 계산을 통해 토큰들 사이의 관계를 처리하는 것입니다. 매개변수 기억은 이와 달리 맥락 정보를 모델의 파라미터 값 자체에 임시로 기록합니다. 외부 저장소나 별도 모듈이 필요 없고, 훈련이 끝난 뒤에도 기본 모델 자체가 더 견고한 맥락 처리 능력을 갖추게 된다는 점이 차이입니다.

Q. 이 기술이 실제 AI 서비스에 적용되면 어떤 점이 달라지나요? 긴 계약서 요약, 방대한 보고서에서 특정 정보 찾기, 긴 코드 파일 분석처럼 긴 문서를 다루는 작업에서 오답률이 줄어들 가능성이 있습니다. 특히 추론 시점에 별도의 추가 연산 없이도 성능이 향상되기 때문에, 속도를 유지하면서 정확도를 높이는 방향으로 실제 서비스에 적용될 수 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: MemDLM: Memory-Enhanced DLM Training

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI 매터스 유튜브 구독자 추첨 도서 증정 이벤트 배너_박태웅의 AI 강의 2026 증정