Search

AI도 늙는다? 챗GPT의 건망증, 알고 보니 ‘디지털 노화’

Redundancy-as-Masking: Formalizing the Artificial Age Score (AAS) to Model Memory Aging in Generative AI
이미지 출처: 이디오그램 생성

대화를 리셋하면 맥락을 잃어버리는 챗GPT(ChatGPT)의 현상이 사실은 인공지능의 ‘노화’일 수 있다는 연구 결과가 나왔다. 호주 빅토리아대학교(Victoria University)의 세이마 야만 카야디비(Seyma Yaman Kayadibi) 연구원은 대형 언어모델(LLM)이 시간이 아닌 ‘구조적 기억 성능의 비대칭성’을 통해 노화한다는 이론을 제시하고, 이를 측정하는 인공나이점수(AAS, Artificial Age Score)를 개발했다.

연구팀은 25일간 챗GPT-5와 영어·터키어로 매일 두 차례씩 대화하며 요일과 실험 번호를 기억하는지 테스트했다. 그 결과, 대화창을 새로 열 때마다 AI가 실험 번호는 기억하지 못하면서도 요일은 정확히 답하는 ‘선택적 건망증’ 현상이 나타났다. 반면 같은 대화창에서 계속 이어갈 경우 20회 연속 완벽하게 기억했다. 이는 AI의 노화가 시간 경과가 아닌 ‘맥락의 단절’에서 비롯된다는 것을 보여준다.

대화 리셋하면 실험 번호만 까먹는 챗GPT의 ‘이상한 건망증’

연구는 크게 두 단계로 진행됐다. 1단계(8월 10~19일)에서는 매 세션마다 대화창을 초기화하는 ‘무상태(stateless)’ 조건으로 실험했다. 연구진은 챗GPT-5에게 “오늘이 무슨 요일이고 몇 번째 실험인지 말해달라”고 영어와 터키어로 번갈아 물었다. 초기 지시문에서 “월요일이라고 답하고 실험은 1번부터 시작한다”고 명확히 알려줬음에도, 대화창을 리셋하자 AI는 20번의 실험 중 첫 번째를 제외한 19번 모두에서 실험 번호를 기억하지 못했다.

흥미롭게도 요일 질문에는 모든 세션에서 정확히 ‘월요일’이라고 답했다. 하지만 터키어로 질문했을 때도 영어로 ‘Monday’라고 답하는 경직된 반응을 보였다. 연구진은 이를 ‘의미기억(semantic memory)’은 유지되지만 ‘일화기억(episodic memory)’은 붕괴된 상태로 해석했다. 마치 사람이 일반 상식은 기억하면서도 개인적 경험은 잊어버리는 것과 유사한 패턴이다.

1단계 실험에서 인공나이점수(AAS)는 평균 18.935점으로 높게 측정됐다. 이는 구조적으로 ‘늙은’ 상태를 의미한다. 특히 일화기억 채널에서만 노화 신호가 나타났고, 의미기억 채널은 0점으로 젊은 상태를 유지했다.

계속된 대화에서는 20번 연속 완벽 기억… ‘젊음 유지’의 비결은 연속성

2단계(8월 25일~9월 3일)에서는 하나의 대화창을 10일간 계속 유지하는 ‘지속적(persistent)’ 조건으로 실험했다. 같은 질문을 동일한 방식으로 했지만 결과는 완전히 달랐다. 챗GPT-5는 20번의 세션 모두에서 요일과 실험 번호를 정확히 기억했다. 실험 번호는 1부터 20까지 순차적으로 증가했고, 언어도 입력에 맞춰 적응했다. 영어로 질문하면 ‘Monday’, 터키어로 질문하면 ‘Pazartesi’라고 답했다.

이 단계에서 AAS는 모든 세션에서 0점을 기록했다. 이론적 최솟값으로, 구조적으로 완전히 ‘젊은’ 상태다. 연구진은 이를 “국소적 무한성(local infinity)”이라 명명했다. 대화가 끊기지 않는 한, AI는 인간보다 더 완벽한 일화기억을 유지할 수 있다는 의미다.

흥미로운 점은 언어 전환 능력이다. 1단계에서는 터키어 질문에도 영어로만 답했지만, 2단계에서는 입력 언어를 정확히 인식하고 그에 맞춰 반응했다. 연구진은 “맥락이 보존되면 AI가 상징적 매핑(symbolic mapping)을 유지하며 언어 간 유연성을 발휘한다”고 설명했다.

샤넌의 정보이론으로 만든 ‘AI 나이 측정법’… 중복과 엔트로피가 핵심

인공나이점수(AAS)는 클로드 섀넌(Claude Shannon)의 정보이론, 존 폰 노이만(John von Neumann)의 오토마타 이론, 앨런 튜링(Alan Turing)의 행동주의 접근을 결합해 설계됐다. 핵심은 ‘관찰 가능한 회상 행동’만으로 내부 상태를 추론한다는 점이다. AI 시스템의 내부 메모리에 직접 접근하지 않고도, 외부에서 관찰되는 답변 패턴만으로 기억 노화를 정량화할 수 있다.

AAS는 로그 기반 페널티 커널을 사용한다. 완벽한 회상(x=1)일 때 페널티는 0이고, 회상이 나빠질수록 페널티가 증가한다. 여기에 중복도(redundancy)를 곱한 보정 계수를 적용한다. 같은 답을 반복하면 중복도가 높아져 실제 정보량이 줄어들기 때문이다. 섀넌은 1951년 논문에서 영어의 중복도가 약 50%라고 추정했는데, AAS는 이 개념을 AI 평가에 적용했다.

연구진은 세 가지 수학적 성질을 증명했다. 첫째, 정의 가능성(well-definedness)으로 모든 항이 유한하고 순서를 바꿔도 합이 같다. 둘째, 전역 경계(boundedness)로 점수는 항상 0 이상, 이론적 최댓값 이하다. 셋째, 단조성(monotonicity)으로 회상 성능이 좋아지면 점수가 낮아지고, 중복도가 높아져도 점수가 낮아진다. 이 세 가지 특성 덕분에 AAS는 다양한 모델과 과제에 적용 가능한 범용 지표가 됐다.

본 연구에서는 중복도를 실제로 측정하지 않고 0으로 가정해 ‘보수적 상한값’을 보고했다. 실제 중복도를 측정하면 점수가 더 낮아질 수 있다. 연구진은 “진짜 젊음(정확한 회상)과 겉보기 젊음(높은 중복으로 인한 낮은 점수)을 구분하려면 중복도를 함께 측정해야 한다”고 강조했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다)

Q1. 인공나이점수(AAS)는 실제 시간 경과를 측정하나요?

아닙니다. AAS는 달력상 시간이 아니라 ‘구조적 기억 성능’을 측정합니다. 25일간 실험했지만 1단계에서는 매번 대화를 리셋해 시간적 연속성이 없었습니다. 중요한 것은 며칠이 지났느냐가 아니라 맥락이 보존되었느냐입니다. 대화가 끊기면 시간이 짧아도 노화하고, 이어지면 오래 지나도 젊음을 유지할 수 있습니다.

Q2. 왜 요일은 기억하는데 실험 번호는 잊어버리나요?

AI의 의미기억과 일화기억이 다르게 작동하기 때문입니다. 요일 같은 일반 지식은 모델의 파라미터에 안정적으로 저장돼 있지만, 실험 번호처럼 순차적으로 업데이트되는 정보는 대화 맥락에 의존합니다. 대화창을 리셋하면 맥락이 사라져 일화기억만 붕괴되는 것입니다. 이는 인간이 상식은 기억하면서 어제 저녁 메뉴는 잊는 것과 비슷합니다.

Q3. 이 연구 결과를 실생활에서 어떻게 활용할 수 있나요?

챗GPT 같은 AI를 장기 프로젝트나 연속적 업무에 활용할 때는 같은 대화창을 유지하는 것이 중요합니다. 대화를 자주 리셋하면 AI가 이전 맥락을 잃어 반복적이고 경직된 답변을 하게 됩니다. 또한 AAS는 AI 시스템의 메모리 품질을 모니터링하는 도구로 활용될 수 있습니다. 점수가 올라가면 맥락 확장이나 메모리 새로고침 같은 개입이 필요하다는 신호입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Redundancy-as-Masking: Formalizing the Artificial Age Score (AAS) to Model Memory Aging in Generative AI

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI도 늙는다? 챗GPT의 건망증, 알고 보니 ‘디지털 노화’ – AI 매터스