KAIST 연구팀이 병원 진료 기록만으로 치매를 예측하는 인공지능 ‘Dementia-R1’을 개발했다. 해당 연구 논문에 따르면, 이 AI는 70억 개의 파라미터를 가진 소형 모델이지만 GPT-4o에 필적하는 성능을 보였다. 무엇보다 의사가 손으로 쓴 듯한 정리되지 않은 진료 기록에서도 수개월에서 수년 뒤 치매 발병 여부를 정확히 예측할 수 있어, 실제 병원에서 바로 사용 가능하다는 평가를 받고 있다.
병원 기록의 80%는 ‘정리 안 된 메모’… AI가 읽기 어려웠다
병원의 전자 기록 중 약 80%는 의사가 작성한 진료 메모나 검사 소견처럼 정리되지 않은 글이다. 치매는 몇 달에서 몇 년에 걸쳐 천천히 나타나는 병이라 여러 번의 진료 기록을 종합해야 진단할 수 있다. 하지만 기존 AI들은 특정 시점의 정보만 보도록 학습돼 있어서, 시간이 지나면서 증상이 어떻게 변하는지 제대로 파악하지 못했다. 연구팀은 이 문제를 해결하기 위해 AI가 스스로 패턴을 찾아내는 ‘강화학습’이라는 방식을 사용했다.
Dementia-R1은 환자의 과거 진료 기록을 시간 순서대로 분석해서 인지 기능이 계속 떨어지는지, 잠깐 좋아지는지까지 파악한다. 치매는 증상이 일정하게 나빠지지 않고 때로는 좋아지는 것처럼 보이다가 다시 악화되기도 해서, 전체적인 흐름을 봐야 한다. 기존 방식으로는 이런 복잡한 판단 과정을 AI에게 가르치기 어려웠지만, 강화학습은 AI가 최종 진단을 내리기 전에 중간 단계들을 스스로 배울 수 있게 해준다.
‘단계별 학습’으로 AI 혼란 해결… 먼저 점수 맞히기부터
AI를 치매 진단 같은 ‘있다/없다’ 판정에 바로 적용하면 학습이 불안정해지는 문제가 있다. 정답 신호가 너무 단순해서 AI가 무엇을 배워야 할지 헷갈리기 때문이다. 연구팀은 이를 해결하기 위해 2단계 학습 전략을 썼다. 1단계에서는 AI가 먼저 검증 가능한 인지 검사 점수들을 맞히도록 훈련시키고, 2단계에서 최종 치매 진단 과제로 넘어가는 방식이다.
구체적으로 1단계에서는 MMSE(간이 정신 검사, 0-30점), GDS(치매 심각도 척도, 1-7점), CDR(치매 평가 척도, 0-3점) 같은 표준화된 검사 점수를 예측 목표로 삼았다. 연구팀은 보조 AI를 활용해 정리되지 않은 진료 기록에서 이 점수들을 뽑아내고, 이를 정답으로 삼아 모델을 학습시켰다. MMSE는 30점 만점이므로 ±2점 차이는 정답으로 인정하고, GDS와 CDR은 점수 단위가 더 크므로 정확히 맞춰야 했다. 이런 중간 점수 맞히기 과제를 통해 AI는 병이 어떻게 진행되는지 추론하는 능력을 자연스럽게 배우게 된다.
2단계에서는 학습된 모델을 치매 여부를 판단하는 최종 진단에 적용한다. 이때는 맞음/틀림이라는 단순한 신호만 주어지지만, 1단계에서 이미 시간에 따른 증상 변화를 읽는 법을 배웠기 때문에 안정적으로 학습된다. 연구팀은 GRPO라는 효율적인 학습 알고리즘을 사용했다.

아산병원 3천 명 데이터로 검증… 정확도 77% 달성
연구팀은 Dementia-R1의 성능을 검증하기 위해 아산병원의 실제 진료 기록과 알츠하이머병 연구 데이터베이스(ADNI)에서 실험했다. 아산병원 데이터는 2021년 1월부터 2023년 9월까지 신경인지장애로 진단받은 약 3,000명 환자의 전자의무기록으로 구성됐다. 개인 정보는 모두 삭제했으며, 의사가 작성한 진료 메모에서 주요 검사 점수들을 추출했다.
아산병원 데이터에서 Dementia-R1은 정확도 77.03%를 기록하며 가장 높은 성능을 보였다. 이는 1단계 학습 없이 바로 훈련한 모델(76.57%)과 일반적인 방식(75.85%)을 모두 앞질렀다. 특히 중간 점수 예측에서도 평균 정확도 59.61%를 달성해, 파라미터 수가 4배 이상 많은 Qwen2.5-32B(57.9%)보다 높았다. 특히 신경과 전문의들이 병의 단계를 정밀하게 평가하는 데 쓰는 GDS와 CDR에서 우수한 성능을 보였다.
ADNI 데이터베이스는 표 형식으로 정리된 구조화 데이터라서 연구팀은 이를 시간순 문장으로 변환해 적용했다. 여기서도 Dementia-R1은 정확도 74.91%를 기록하며 GPT-4o(76.05%)에 근접한 성능을 보였다. 특히 18-24개월 이상의 장기 예측에서는 GPT-4o(78.78%)를 앞선 80.30%를 기록해, 오랜 기간에 걸친 병 진행 예측에 강점을 보였다.

2년 뒤까지 예측 가능… 장기 예측에서도 안정적
연구팀은 마지막 진료 기록과 진단 시점 사이의 시간 간격별로 성능도 분석했다. 아산병원 데이터에서 Dementia-R1은 12-18개월 구간에서 정확도 79.28%로 최고를 기록했으며, 이는 SFT → GRPO 방식(78.00%)과 Qwen2.5-32B(74.38%)를 모두 앞섰다. ADNI 데이터에서는 18-24개월 구간에서 80.30%로 GPT-4o(78.78%)를 앞질렀고, 24개월 이상 장기 예측에서도 73.11%로 GPT-4o(71.18%)보다 높았다.
흥미롭게도 ADNI 데이터는 아산병원보다 훨씬 긴 추적 기간을 가지고 있어, 테스트 데이터의 약 절반이 24개월 이상, 일부는 36개월 이상의 간격을 보였다. 이는 경도인지장애 진행을 장기간 지켜본 특성 때문이다. 연구팀은 검증 가능한 검사 점수로 학습시킨 모델이 장기 예측에서도 안정적인 능력을 유지한다고 분석했다. 학습 과정 분석에서도 1단계를 거친 모델이 바로 학습한 모델보다 더 빨리 배우고 더 안정적이었다.
한계와 과제… 여러 병원 데이터로 검증 필요
연구팀은 몇 가지 한계점도 밝혔다. 우선 정리되지 않은 진료 기록 데이터가 아산병원 한 곳에서만 나왔기 때문에 다른 병원이나 환자 집단에서도 잘 작동하는지 추가 검증이 필요하다. 또한 한국어 진료 기록을 영어로 번역하는 과정에서 인지 기능 저하를 평가하는 데 중요한 미묘한 표현이나 문법 오류가 사라질 수 있다. 앞으로는 원어 텍스트에 직접 적용하는 연구가 필요하다.
또한 이 시스템의 성능이 보조 AI의 성능에 달려 있다는 점도 한계다. 연구팀은 Qwen2.5 시리즈를 사용해 진료 기록 번역과 검사 점수 추출을 했는데, 추출된 점수를 학습에 사용하기 때문에 추출 오류가 있으면 AI 학습에 방해가 될 수 있다. 마지막으로 이 방법은 MMSE 같은 숫자로 측정 가능한 검사에 의존하기 때문에, 표준화된 수치 기록이 없는 질병으로 바로 확장하기는 어렵다. 주관적이거나 질적인 지표만 있는 질병으로 확장하는 것은 앞으로의 과제다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. Dementia-R1은 실제 병원에서 어떻게 쓰일 수 있나요?
A: Dementia-R1은 의사가 쓴 일반적인 진료 기록만으로 앞으로 6개월에서 2년 이내 치매 발병 가능성을 예측할 수 있습니다. 별도로 데이터를 입력할 필요 없이 기존 전자의무기록을 그대로 사용할 수 있어, 조기 검사나 위험 환자 모니터링에 도움이 될 수 있습니다. 하지만 최종 진단은 반드시 전문의가 내려야 합니다.
Q2. 작은 AI가 큰 AI만큼 잘하는 이유는 뭔가요?
A: Dementia-R1은 모든 것을 할 수 있는 범용 AI가 아니라 치매 진단이라는 한 가지 일에 특화돼 있습니다. MMSE, GDS, CDR 같은 검사 점수를 먼저 예측하도록 학습하면서, 시간에 따라 인지 기능이 어떻게 변하는지 파악하는 능력을 집중적으로 키웠습니다. 이런 전문화가 작은 크기를 보완했습니다.
Q3. 이 연구를 다른 질병 예측에도 쓸 수 있나요?
A: 원칙적으로는 가능하지만, MMSE처럼 객관적으로 측정 가능한 중간 지표가 있는 질병에 적합합니다. 알츠하이머병처럼 오랜 기간에 걸쳐 천천히 진행되고, 진료 기록에 증상 변화가 남아있는 만성 질환이라면 비슷한 방법을 쓸 수 있습니다. 다만 질병마다 적절한 중간 지표를 정하고 추출하는 과정이 필요합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Dementia-R1: Reinforced Pretraining and Reasoning from Unstructured Clinical Notes for Real-World Dementia Prognosis
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






