• Home
  • AI Report
  • 생성형 AI ChatGPT, 의료 진단 도구로서의 가능성과 한계 확인돼

생성형 AI ChatGPT, 의료 진단 도구로서의 가능성과 한계 확인돼

Evaluation of ChatGPT as a diagnostic tool for medical learners and clinicians
이미지 출처: 미드저니 생성

Evaluation of ChatGPT as a diagnostic tool for medical learners and clinicians

ChatGPT의 의료 진단 정확도 49%, 의학 교육 도구로서의 가능성 보여

영국 웨스턴 대학교 연구팀이 인공지능 ChatGPT의 의료 진단 능력을 평가한 결과가 주목받고 있다. 연구진은 Medscape의 150개 임상 사례를 ChatGPT에 입력해 진단 정확도, 답변의 인지 부하, 의료 정보의 품질 등을 분석했다. 이 연구는 ChatGPT가 의료 분야에서 어떤 역할을 할 수 있을지에 대한 중요한 시사점을 제공한다.

ChatGPT는 150개 사례 중 74개(49%)에서 정확한 진단을 내렸다. 전체 정확도는 74%, 정밀도 48.67%, 민감도 48.67%, 특이도 82.89%를 기록했다. 이는 ChatGPT가 오진을 배제하는 능력은 뛰어나지만, 정확한 진단을 내리는 데는 한계가 있음을 보여준다. 연구진은 이러한 결과가 ChatGPT의 훈련 데이터와 관련이 있을 것으로 추정했다. ChatGPT는 다양한 텍스트 데이터로 훈련되었지만, 의료 분야의 전문적인 지식이 부족할 수 있기 때문이다.

저인지 부하의 답변 제공, 의학 교육 도구로서의 장점

ChatGPT 답변의 51%(77/150)가 저인지 부하로 분류돼 이해하기 쉬운 것으로 나타났다. 41%(61/150)는 중간 수준의 인지 부하, 7%(11/150)만이 고인지 부하로 분류됐다. 이는 의대생들의 학습 참여도와 정보 습득을 높일 수 있는 장점이 될 수 있다. 특히 초보 의대생들에게 유용할 수 있으며, 복잡한 의학 개념을 이해하기 쉽게 설명하는 데 도움이 될 수 있다.

하지만 연구진은 이러한 장점이 부정확한 정보와 결합될 경우 오개념을 심어줄 우려가 있다고 지적했다. 따라서 ChatGPT를 의학 교육에 활용할 때는 반드시 전문가의 감독과 검증이 필요하다고 강조했다.

의료 정보의 품질과 관련성 분석 결과

의료 정보의 품질 면에서는 52%(78/150)가 완전하고 관련성 있는 답변으로 평가됐다. 43%(64/150)는 불완전하지만 관련성 있는 정보를 제공했다. 5%(8/150)만이 불완전하고 관련성 없는 답변으로 분류됐다. 이는 ChatGPT가 관련 정보를 제공하는 능력은 뛰어나지만, 완전한 답변을 하는 데는 한계가 있음을 시사한다.

연구진은 이러한 결과가 ChatGPT의 방대한 훈련 데이터베이스 때문일 것으로 추정했다. ChatGPT는 다양한 주제에 대한 정보를 갖고 있지만, 특정 의료 사례에 대한 깊이 있는 이해는 부족할 수 있다는 것이다. 따라서 ChatGPT를 의료 정보의 보조 도구로 활용하되, 최종 판단은 반드시 의료 전문가가 해야 한다고 연구진은 강조했다.

AI 진단 도구의 한계와 윤리적 고려사항 존재

연구진은 ChatGPT가 여러 가지 한계를 보인다고 지적했다. 첫째, 수치 해석에 어려움을 겪는다. 예를 들어, 정상 범위를 벗어난 검사 결과를 제대로 해석하지 못하는 경우가 있었다. 둘째, 영상 판독 능력이 없다. X-레이나 MRI 등의 의료 영상을 직접 분석할 수 없어, 이를 바탕으로 한 진단에 한계가 있다. 셋째, 미묘한 차이가 있는 질병을 구별하는 데 어려움을 겪는다. 특히 정신과 질환처럼 증상이 유사한 질병들을 구분하는 데 한계를 보였다.

또한 AI 환각 현상으로 인한 오진 가능성도 제기됐다. AI 환각은 AI가 실제로 존재하지 않는 정보를 생성하는 현상을 말한다. 의료 진단에서 이러한 현상은 심각한 문제를 일으킬 수 있다. 이에 연구진은 ChatGPT를 의료 진단에 단독으로 사용하는 것은 위험하며, 반드시 의료진의 전문성과 판단이 결합돼야 한다고 강조했다.

아울러 AI의 의료 분야 활용에 따른 윤리적 문제도 제기됐다. 환자 개인정보 보호, AI 알고리즘의 편향성 문제, AI 진단의 법적 책임 소재 등에 대한 명확한 가이드라인이 필요하다는 지적이다. 특히 AI 알고리즘이 특정 인종이나 성별에 대해 편향된 진단을 내릴 수 있다는 우려가 제기됐다. 따라서 AI를 의료에 도입할 때는 이러한 윤리적 문제를 충분히 고려해야 한다고 연구진은 강조했다.

AI 의료 교육 도구로서의 발전 가능성

연구진은 ChatGPT가 현재 형태로는 정확한 진단 도구로 사용하기 어렵지만, 의학 교육 도구로서의 가능성은 충분하다고 평가했다. 특히 감별진단 배제, 합리적인 다음 단계 제안 등에서 강점을 보였다. 예를 들어, ChatGPT는 주어진 증상에 대해 가능한 여러 진단을 제시하고, 각 진단을 뒷받침하거나 배제할 수 있는 근거를 설명하는 데 능숙했다.

또한 ChatGPT는 복잡한 의학 개념을 쉽게 설명하는 능력을 보여줬다. 이는 의대생들이 어려운 의학 지식을 이해하는 데 도움이 될 수 있다. 다만 연구진은 ChatGPT의 설명이 때로는 과도하게 단순화되거나 부정확할 수 있다고 경고했다. 따라서 ChatGPT를 의학 교육에 활용할 때는 반드시 전문가의 감독이 필요하다고 강조했다.

향후 의료 전문 AI 모델 개발, 실시간 의료 데이터베이스와의 통합 등을 통해 ChatGPT의 성능이 향상될 것으로 전망된다. 예를 들어, 최신 의학 논문과 임상 가이드라인을 지속적으로 학습하는 AI 모델이 개발될 수 있다. 또한 실제 병원 데이터와 연동되어 더 정확한 진단과 치료 제안을 할 수 있는 시스템도 가능할 것으로 보인다.

다만 연구진은 AI를 의료 교육과 임상에 도입할 때는 신중한 접근이 필요하다고 강조했다. AI의 한계와 윤리적 문제를 충분히 인식하고, 이를 보완할 수 있는 체계를 마련해야 한다는 것이다. 또한 의료진들이 AI를 효과적으로 활용할 수 있도록 하는 교육 프로그램도 필요하다고 제안했다.

결론적으로, 이 연구는 ChatGPT가 의료 분야에서 보조적인 도구로 활용될 가능성을 보여주었다. 하지만 동시에 AI의 한계와 윤리적 문제도 명확히 드러냈다. 향후 AI 기술이 발전함에 따라 의료 분야에서의 활용도 확대될 것으로 보이지만, 그 과정에서 인간 의료진의 전문성과 판단은 여전히 중요할 것으로 예상된다. 책임 있고 윤리적인 AI 활용을 위한 가이드라인 마련이 시급하며, 이는 의료계와 AI 전문가들의 협력을 통해 이루어져야 할 것이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




생성형 AI ChatGPT, 의료 진단 도구로서의 가능성과 한계 확인돼 – AI 매터스