펜실베이니아 주립대학교 연구팀이 발표한 논문에 따르면, 의학 드라마 ‘하우스(House M.D.)’를 활용해 대형 언어모델(LLM)의 희귀질환 진단 능력을 평가한 결과, 최신 AI 모델도 정확도가 40%에 미치지 못하는 것으로 나타났다. 이번 연구는 AI가 의료 현장에서 실제로 활용되기까지 아직 상당한 과제가 남아있음을 보여준다.
의학 드라마가 AI 평가 기준이 된 이유
연구팀은 176개의 증상-진단 쌍으로 구성된 새로운 데이터셋을 구축했다. 이 데이터는 의학 드라마 ‘하우스’의 전체 8개 시즌 176개 에피소드에서 추출한 것으로, 환자의 증상 설명과 최종 진단명을 짝지어 구성했다. ‘하우스’를 선택한 이유는 명확하다. 이 드라마는 의학 교육과정에 성공적으로 통합되어 희귀질환 인식을 가르치는 데 활용되고 있다. 또한, 보건의료 전공 학생의 49.6%가 정기적으로 의학 드라마를 시청하며, ‘하우스’가 가장 인기 있는 프로그램 중 하나로 나타났다. 이러한 프로그램들은 생명윤리 및 전문직 실무 문제를 효과적으로 가르치는 것으로 확인됐다.
‘하우스’는 의학 교육에서 거의 다루지 않는 희귀질환을 자주 다룬다. 또한 드라마적 요소에도 불구하고 제작진은 의료 컨설턴트를 고용해 임상 정확성을 확보하며, 실제 진료를 반영하는 일관된 진단 프레임워크를 따른다. 실제 환자 데이터와 달리 ‘하우스’ 콘텐츠는 공개적으로 접근 가능해 윤리적 제약 없이 재현 가능한 연구를 가능하게 한다.
GPT-4o 미니 16%, 제미나이 2.5 프로 38%…2.3배 성능 격차
연구팀은 GPT-4o 미니, GPT-5 미니, 제미나이 2.5 플래시, 제미나이 2.5 프로 등 4개의 최신 LLM을 평가했다. 이 선택은 다양한 모델 계열과 성능 수준을 포괄하여 여러 아키텍처와 학습 방법에 걸친 진단 추론을 평가할 수 있게 했다. 평가 방식은 각 모델에 환자의 인구통계 정보, 시간에 따른 증상 진행, 관련 병력, 초기 진단 검사 결과를 포함한 구조화된 의료 사례 형식의 프롬프트를 제공하고 단일 주요 진단을 요청하는 방식이었다. 모델은 결정론적 출력을 보장하기 위해 온도를 0.0으로 설정하고, 최대 토큰 길이는 1500으로 설정했다.
결과는 모델별로 큰 차이를 보였다. 가장 낮은 성능을 기록한 GPT-4o 미니는 176개 케이스 중 29개만 정확히 진단해 16.48%의 정확도를 보였다. 반면 최고 성능을 기록한 제미나이 2.5 프로는 68개를 맞춰 38.64%의 정확도를 달성했다. GPT-5 미니는 65개 정답으로 36.93%, 제미나이 2.5 플래시는 58개 정답으로 32.95%의 성적을 거뒀다. 최고 성능과 최저 성능 사이에는 2.3배의 차이가 발생했다.
성능은 모델뿐 아니라 시즌별로도 차이를 보였다. 제미나이 2.5 프로 기준으로 시즌 1에서는 23개 에피소드 중 13개를 맞춰 56.52%의 정확도를 보인 반면, 시즌 5에서는 24개 중 5개만 맞춰 20.83%로 가장 낮은 성적을 기록했다. 시즌 8은 21개 중 11개를 맞춰 52.38%의 정확도를 보였다. 연구팀은 이러한 변동이 시리즈 전반에 걸쳐 진단 복잡성이 다양하며, 후반 시즌이 더 어려운 희귀질환 사례를 다룰 가능성을 시사한다고 분석했다. 그러나 시즌 8의 비교적 강한 성능은 시간적 진행만으로는 정확도 차이를 완전히 설명할 수 없으며, 사례별 진단 복잡성이 주요 요인으로 보인다고 밝혔다.
흔한 질병은 잘 맞추지만 희귀질환과 다계통 질환엔 어려움
모든 모델은 뚜렷한 증상을 보이는 일반적인 질환에서 더 나은 성능을 보였다. 수막염, 심근경색, 폐색전증 등은 상대적으로 잘 진단했다. 반면 모든 모델은 신경낭미충증, 에르드하임-체스터병 같은 희귀질환에서 어려움을 겪었다. 전신홍반루푸스, 사르코이드증 같은 다계통 자가면역질환도 진단이 어려웠다. 또한 노출 이력과 임상 증상을 통합해야 하는 독성학적 사례에서도 낮은 성능을 보였다.
연구팀은 모델 간 성능 격차가 아키텍처 차이와 학습 방식이 진단 추론 능력에 상당한 영향을 미친다는 것을 보여준다고 설명했다. GPT-5 미니와 제미나이 2.5 프로의 우수한 성능은 향상된 추론 능력을 갖춘 신세대 모델이 이전 버전 대비 의미 있는 개선을 보이지만, 여전히 상당한 한계가 남아있음을 나타낸다.
“40% 정확도, 낮아 보이지만 의미 있는 진전”
연구팀은 GPT-4o 미니의 16.48%에서 제미나이 2.5 프로의 38.64%로 향상된 결과가 임상적으로 유용한 AI 진단 시스템을 향한 의미 있는 진전을 보여준다고 강조했다. 절대 정확도 수준은 개선의 여지가 있지만, 결과를 맥락화하는 것이 중요하다고 설명했다.
연구팀은 “이번 벤치마크는 전문 의사들조차 어려워하는 진단적으로 도전적인 사례만을 다루며, 일반적인 의료 AI 벤치마크보다 상당히 어려운 평가 과제”라고 밝혔다. 이처럼 예외적으로 어려운 사례의 거의 40%를 정확히 진단할 수 있다는 것은 의미 있는 의료 추론 능력을 보여주며, 향후 도메인 특화 파인튜닝, 의학 지식베이스와의 통합, 하이브리드 추론 접근법을 통한 개선을 위한 견고한 기반을 구축한다고 평가했다.
연구팀은 또한 한계점도 명확히 했다. 허구적 서사에서 비롯된 잠재적 편향, 전문 의료 검증 부족, 오류의 임상적 중요성을 포착하지 못하는 이진 정확도 지표 등이 있다. 특히 모델들이 확신에 찬 잘못된 설명을 자주 제공했으며, 이는 전문 훈련과 검증 없이 임상 배치할 경우 우려를 제기한다고 밝혔다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. AI가 의사를 대체할 수 있나요?
A: 아직은 어렵습니다. 이번 연구에서 최고 성능의 AI도 희귀질환 진단 정확도가 38.64%에 그쳤습니다. AI는 의사의 진단을 보조하는 도구로 활용하는 것이 현실적이며, 특히 복잡한 희귀질환이나 다계통 질환의 경우 전문의의 판단이 필수적입니다.
Q2. 왜 의학 드라마로 AI를 평가했나요?
A: 의학 드라마 ‘하우스’는 실제 의학교육 현장에서 희귀질환 교육 자료로 활용되며, 의료 전문가의 검증을 받은 콘텐츠입니다. 실제 환자 데이터는 개인정보 보호 문제로 활용이 어려운 반면, 드라마는 공개적으로 접근 가능하면서도 임상적으로 의미 있는 사례를 제공합니다.
Q3. AI가 잘 진단하는 질병과 어려워하는 질병은 무엇인가요?
A: 수막염, 심근경색, 폐색전증처럼 뚜렷한 증상을 보이는 일반적인 질환은 비교적 잘 진단합니다. 반면 신경낭미충증 같은 희귀질환, 전신홍반루푸스 같은 다계통 자가면역질환, 독성물질 노출 사례 등에서는 모든 AI 모델이 어려움을 겪었습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






