• Home
  • AI Report
  • ChatGPT, 의료 진단 도구로서의 한계와 가능성 동시에 드러내

ChatGPT, 의료 진단 도구로서의 한계와 가능성 동시에 드러내

Image

Evaluation of ChatGPT as a diagnostic tool for medical learners and clinicians

이미지 출처: Google Imagen3

인공지능(AI) 챗봇 ChatGPT가 의료 진단 도구로서 한계와 가능성을 동시에 보여줬다.

최근 의학 저널 ‘PLOS ONE’에 발표된 연구에 따르면 ChatGPT는 복잡한 의료 사례의 절반 정도를 정확히 진단했지만, 여전히 개선이 필요한 것으로 나타났다.

웨스턴대학교 의과대학 연구팀은 메드스케이프(Medscape)의 150개 임상 사례를 ChatGPT에 입력해 진단 정확도를 평가했다. 이 사례들은 2021년 9월부터 2023년 1월 사이에 출판된 것으로, ChatGPT의 학습 데이터에 포함되지 않은 새로운 사례들이었다.

AI vs 인간 의사: ChatGPT의 진단 정확도 49%

연구 결과, ChatGPT는 49%(74/150)의 사례에서 정확한 진단을 내렸다. 전체 정확도는 74%, 정밀도는 48.67%, 민감도는 48.67%, 특이도는 82.89%를 기록했다. 수신자 조작 특성(ROC) 곡선의 곡선 아래 면적(AUC)은 0.66으로, 중간 정도의 식별 능력을 보였다.

연구를 주도한 아미트 키르팔라니(Amrit Kirpalani) 교수는 “ChatGPT가 현재 상태로는 진단 도구로 사용하기에 부족하다”면서도 “의료 교육 도구로서의 가능성은 있다”고 말했다. 키르팔라니 교수는 “ChatGPT의 높은 특이도는 잘못된 진단을 배제하는 데 유용할 수 있지만, 낮은 정밀도와 민감도는 정확한 진단을 내리는 데 한계가 있음을 보여준다”고 설명했다.

ChatGPT의 의료 진단 ‘장점과 맹점’

ChatGPT의 주요 장점으로는 임상적 근거 제시, 관련 증상 파악, 감별진단 제시, 추가 검사 제안 등이 꼽혔다. 연구팀은 “ChatGPT가 의료 학습자들에게 질병의 발현 기전이나 진단 분석의 근거를 설명하는 데 도움이 될 수 있다”고 평가했다.

반면 주요 한계점으로는 수치 해석 오류, 이미지 평가 불가, 미묘한 차이가 있는 질병 구별 어려움, AI 환각(hallucination) 현상, 중요 정보 간과 등이 지적됐다. 특히 AI 환각 현상은 ChatGPT가 그럴듯하지만 사실이 아닌 정보를 생성하는 문제로, 의료 분야에서 심각한 오진으로 이어질 수 있어 주의가 필요하다.

연구팀은 ChatGPT가 제공하는 의학 정보의 질도 평가했다. 그 결과 52%(78/150)의 응답이 완전하고 관련성 있는 것으로 나타났다. 43%(64/150)는 불완전하지만 관련성은 있었고, 5%(8/150)는 불완전하고 관련성도 없었다. 연구팀은 “ChatGPT가 의학 학습자들에게 도움이 될 수 있지만, 잘못된 정보로 인한 오해의 소지도 있어 주의가 필요하다”고 강조했다.

인지 부하 측면에서는 ChatGPT의 응답 중 51%(77/150)가 낮은 인지 부하를, 41%(61/150)가 중간 수준의 인지 부하를 요구하는 것으로 평가됐다. 연구팀은 “이는 의학 초보자들의 학습 참여와 정보 기억에 도움이 될 수 있지만, 동시에 잘못된 정보에 대한 잘못된 이해를 야기할 수 있어 주의가 필요하다”고 설명했다.

AI 의료의 윤리적 딜레마: 편견과 격차의 위험

이번 연구 결과는 AI의 의료 분야 활용에 대한 윤리적 고려사항도 제기했다. 연구팀은 “AI 알고리즘이 훈련 데이터의 편향성을 강화할 수 있어 의료 격차를 심화시킬 우려가 있다”며 “AI는 인간 의료진의 판단을 대체하는 것이 아닌 보조 도구로 활용돼야 한다”고 제언했다.

키르팔라니 교수는 “AI가 의료 분야에 가져올 변화는 불가피하지만, 환자의 개인정보 보호와 데이터 보안이 최우선으로 고려돼야 한다”고 강조했다. 또한 “AI의 진단이 통계적으로 가장 정확하더라도, 개별 환자의 문화적, 종교적 가치와 충돌할 수 있어 인간 의료진의 판단이 여전히 중요하다”고 덧붙였다.

ChatGPT 연구의 한계: 더 많은 데이터와 모델이 필요하다

연구팀은 이번 연구의 한계점도 인정했다. ChatGPT 3.5 모델만을 사용했기 때문에 다른 AI 모델이나 ChatGPT의 향후 버전에는 적용되지 않을 수 있다는 점, 메드스케이프의 임상 사례만을 사용해 의료 교육의 모든 측면을 다루지 못했다는 점 등이 지적됐다.

향후 연구 방향에 대해 연구팀은 “다양한 AI 모델과 사례를 활용한 추가 연구가 필요하다”며 “AI의 의료 교육 및 임상 활용에 대한 명확한 가이드라인 마련이 시급하다”고 밝혔다. 특히 “AI에 과도하게 의존하는 의료진의 역량, AI 지원 진단에 대한 환자의 신뢰도, 전반적인 임상 결과에 미치는 영향 등을 평가하는 장기적인 연구가 필요하다”고 강조했다.

키르팔라니 교수는 “ChatGPT와 같은 대규모 언어 모델(LLM)이 의료 분야에 가져올 변화는 불가피하지만, 책임감 있고 윤리적인 방식으로 도입되어야 한다”고 말했다. 그는 “AI는 의료진의 판단을 보조하는 도구로 활용되어야 하며, 환자 케어와 의료 교육의 미래를 형성하는 데 있어 신중한 접근이 필요하다”고 결론지었다.

이번 연구는 AI의 의료 분야 활용에 대한 기대와 우려를 동시에 보여주고 있다. ChatGPT와 같은 AI 도구가 의료 교육과 임상 진단을 보조할 잠재력은 분명하지만, 동시에 정확성과 윤리적 문제에 대한 신중한 고려가 필요함을 시사한다. 향후 AI 기술의 발전과 함께, 의료 분야에서의 AI 활용에 대한 더 많은 연구와 논의가 이어질 것으로 전망된다.

기사에 인용된 논문은 링크에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




ChatGPT, 의료 진단 도구로서의 한계와 가능성 동시에 드러내 – AI 매터스