A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians
83개 연구 메타분석, 생성형 AI의 진단 정확도 52.1% 확인
생성형 인공지능(Generative AI)이 의료 분야에서 점차 중요한 역할을 담당하고 있는 가운데, 실제 의사들과 비교한 진단 성능에 대한 포괄적인 평가가 부족했다. 이에 일본 오사카 메트로폴리탄 대학 연구팀은 발표된 생성형 AI 모델의 진단 성능을 검증한 83개 연구에 대한 체계적 검토와 메타분석을 실시했다. 분석 결과, 생성형 AI 모델의 전체 진단 정확도는 52.1%로 나타났다.
연구팀은 AI 모델과 의사들의 진단 성능을 비교했는데, 전체 의사 그룹(p=0.10) 및 비전문가 의사 그룹(p=0.93)과는 유의미한 성능 차이가 발견되지 않았다. 그러나 AI 모델은 전문가 의사들보다는 유의미하게 낮은 성능(p=0.007)을 보였다. 특히 GPT-4, GPT-4o, Llama3 70B, Gemini 1.0 Pro, Gemini 1.5 Pro, Claude 3 Sonnet, Claude 3 Opus, Perplexity 등 일부 모델은 비전문가 의사들보다 약간 높은 성능을 보였지만, 그 차이는 통계적으로 유의미하지 않았다.
생성형 AI, 전문가 수준 못 미치지만 의료 교육과 진단 보조 역할에 잠재력
메타분석 결과에 따르면, 생성형 AI는 전문가 의사에 비해 여전히 낮은 진단 정확도를 보이지만, 비전문가 의사와는 비슷한 수준의 성능을 보여주고 있다. 이는 생성형 AI가 의료 교육 및 진단 보조 도구로서 가능성을 갖고 있음을 시사한다. 연구팀은 현재 전문가 의사들이 AI 모델보다 유의미하게 높은 정확도를 보이는 것은 의료 의사 결정에 있어 인간의 판단과 경험의 대체 불가능한 가치를 강조하는 결과라고 설명했다. 그러나 비전문가 환경에서 생성형 AI 모델이 의사들과 비슷한 성능을 보인 점은 의학 교육에 AI를 통합할 수 있는 기회를 제공한다고 분석했다.
이는 의과대학생과 레지던트를 위한 교육 도구로 AI를 활용하는 방안을 포함하며, 특히 AI의 성능이 의료 전문가와 거의 동등한 비전문가 시나리오를 시뮬레이션하는 데 유용할 수 있다. 이러한 통합은 학습 경험을 향상시키고, 다양한 임상 사례 연구를 제공하며, 자가 평가와 피드백을 촉진할 수 있다고 연구팀은 밝혔다.
의료 교육과 자원 부족 지역에서 활용 가능성 높아… 전문가 대체는 아직 어려워
연구팀의 메타회귀분석에 따르면, 비뇨기과와 피부과를 제외한 대부분의 전문 분야에서는 일반 의학과 비교해 유의미한 성능 차이가 발견되지 않았다. 이는 생성형 AI가 폭넓은 적용 가능성을 갖고 있음을 시사한다. 그러나 비뇨기과와 피부과에서 발견된 유의미한 차이(p값 < 0.001)에 대해서는 해석에 주의가 필요하다고 연구팀은 경고했다. 비뇨기과 결과는 단일 대규모 연구에 기반한 것으로 일반화 가능성이 제한적일 수 있다. 피부과의 경우, 우수한 성능은 시각적 패턴 인식에서 AI의 강점과 잘 맞는 전문 분야의 특성 때문일 수 있다고 연구팀은 분석했다.
그러나 연구팀은 피부과가 시각적 패턴 인식을 넘어 복잡한 임상 추론과 환자별 요소를 포함하는 전문 분야임을 강조하며, 이러한 전문 분야별 성능 차이에 기여하는 요인들을 명확히 하기 위해 추가 연구가 필요하다고 지적했다.
다양한 인구통계 반영 필요… 복잡한 실제 진료 환경에서 AI 성능 평가 과제 남아
연구팀은 이번 연구의 방법론이 포괄적이지만 한계가 있다고 인정했다. 이질성 분석 결과, 중간 수준의 설명된 가변성을 보여 메타회귀 모델이 연구 간 차이의 상당 부분을 설명하지만, 분석에 포함되지 않은 다른 요인들도 생성형 AI 성능에 영향을 미칠 수 있음을 시사한다. 또한 많은 연구에서 인구통계학적 정보가 부족해 다양한 인구와 지리적 지역에 걸친 결과의 일반화 가능성을 평가하는 능력이 제한된다. 생성형 AI의 성능은 훈련 데이터에 표현된 인구통계학적 특성과 의료 상황에 따라 상당히 달라질 수 있다고 연구팀은 설명했다.
연구팀은 “미래 연구는 생성형 AI 성능의 일반화 가능성을 더 잘 이해하기 위해 다양한 환자 인구와 더 복잡한 실제 시나리오를 반영하는 사례를 포함하는 것을 우선시해야 한다”고 권고했다. 또한 “임상적으로 생성형 AI 모델을 사용하는 의사들의 성능 변화와 같은 교차 영향을 조사하는 것도 가치가 있을 것”이라고 덧붙였다.
FAQ
Q: 생성형 AI의 진단 정확도는 얼마나 되며, 의사들과 비교해 어떤 수준인가요?
A: 연구에 따르면 생성형 AI의 전체 진단 정확도는 52.1%입니다. 비전문가 의사들과는 비슷한 수준의 성능을 보였으나, 전문가 의사들보다는 유의미하게 낮은 성능을 보였습니다. 일부 최신 모델(GPT-4, GPT-4o, Llama3 70B 등)은 비전문가 의사보다 약간 높은 성능을 보였지만 통계적으로 유의미한 차이는 아니었습니다.
Q: 생성형 AI는 의료 분야에서 어떤 역할을 할 수 있을까요?
A: 생성형 AI는 의료 교육 도구와 진단 보조 역할로 활용 가능성이 높습니다. 특히 자원이 제한된 환경에서 의료 서비스를 보완하거나 예비 진단 도구로 사용될 수 있으며, 의과대학생과 레지던트를 위한 교육 도구로도 유용할 수 있습니다. 다만 현재로서는 전문가 의사를 대체할 수 있는 수준은 아닙니다.
Q: 생성형 AI의 의료 진단 성능은 모든 전문 분야에서 동일한가요?
A: 아닙니다. 연구에 따르면 대부분의 전문 분야에서는 유의미한 성능 차이가 없었으나, 비뇨기과와 피부과에서는 유의미한 차이가 발견되었습니다. 특히 피부과에서 우수한 성능을 보인 것은 AI가 시각적 패턴 인식에 강점을 가지고 있기 때문일 수 있습니다. 그러나 전문 분야별 차이에 영향을 미치는 요인들에 대해서는 추가 연구가 필요합니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.