Some doctors are using public AI chatbots like ChatGPT in clinical decisions. Is it safe?
설문조사 결과: 의사 76%가 임상 결정에 검증되지 않은 AI 챗봇 사용 중
의사들이 임상 결정을 내릴 때 챗GPT(ChatGPT)와 같은 일반 대중용 AI 챗봇을 사용하는 사례가 늘고 있다. 미국의 헬스케어 산업 전문 온라인 미디어 피어스 헬스케어(Fierce Healthcare)가 의사 소셜 네트워크인 세르모(Sermo)와 협력하여 실시한 설문조사에 따르면, 응답한 의사의 76%가 임상 결정 과정에서 일반 목적의 대규모 언어 모델(LLM)을 사용한다고 답했다. 이 조사는 107명의 1차 진료 의사, 내분비학자, 신경과 의사, 심장 전문의를 대상으로 했으며, 이들 중 60%는 학계 소속이었다.
설문 결과를 보면 의사들이 챗GPT와 같은.AI 챗봇을 다양한 목적으로 활용하고 있음이 드러났다. 의사의 63%는 약물 상호작용 확인에, 54%는 진단 지원에, 48%는 임상 문서 생성에, 42%는 치료 계획 수립에 이러한 도구를 사용하고 있다. 또한 70%는 환자 교육과 문헌 검색 용도로 활용한다고 응답했다. 뉴욕시의 한 피부과 클리닉에서 19세 리아(가명)가 경험한 사례가 이런 현실을 보여준다. 그녀가 모발 성장에 관한 처방을 원했을 때, 의사는 리아가 이미 복용 중인 다른 약물과의 상호작용을 확인하기 위해 자신의 휴대폰으로 챗GPT를 사용했다. “의사가 챗GPT를 쓰는 걸 보고 이상하다고 생각했어요. 제 스스로도 추가 조사를 해야겠다는 생각이 들었죠,” 리아는 말했다.

의사들이 선호하는 이유: 시간 절약(76.6%)과 편의성(75.7%), 그러나 ‘환각’ 위험 수반
의사들이 일반 목적 AI 도구를 선호하는 주된 이유는 시간 절약(76.6%)과 사용 편의성(75.7%)이다. 또한 정보의 풍부함(53.3%)과 직접 질의 가능성(49.5%)도 중요한 장점으로 꼽혔다. 설문에 응한 한 의사는 “환자를 진찰하고 많은 정보를 처리해야 하는 상황에서, 즉시 떠오르지 않는 다양한 진단, 증상, 검사를 제안해주는 도구가 도움이 된다”고 말했다. 하지만 일반 대중용 AI 챗봇을 의료 결정에 활용하는 것은 심각한 위험을 수반한다. 첫째, 이러한 도구들은 공개적으로 이용 가능한 정보로 학습되어 그 출력이 일반적으로 신뢰할 수 없다. 과학 저널과 같은 방화벽이 있는 데이터베이스는 학습에서 제외되는 반면, 레딧(Reddit)과 같은 검증되지 않은 인터넷 사이트의 정보는 포함된다. 또한 학습 데이터는 실시간으로 업데이트되지 않는다. 예를 들어, 유료 버전 GPT는 2023년 12월까지, 무료 버전은 2023년 10월까지의 데이터로 학습되었다.
챗GPT는 ‘환각(hallucination)’이라 불리는 그럴듯해 보이지만 부정확하거나 완전히 조작된 응답을 생성하기도 한다. 사용자가 챗봇에 출처를 인용하도록 요청해도 실제 존재하지 않는 출처를 만들어낼 수 있다. 또한 중요한 맥락이 빠진 경우, 챗봇의 답변은 관련성이 떨어지거나 심지어 위험할 수 있다. 월터스 클루버(Wolters Kluwer)의 의학 책임자인 피터 보니스(Peter Bonis) 박사는 가상의 사례를 통해 이를 증명했다. 그는 페니실린 알레르기가 있는 환자의 요로 감염 치료법을 물으면서 의도적으로 환자가 임신 중이라는 중요한 정보를 생략했다. 이로 인해 챗봇은 태아에 위험한 항생제를 추천했다.
“아직 AI 챗봇이 100% 정확하다는 확신 없다”: AMA의 경고와 950개 AI 의료기기 승인 현황
미국의학협회(AMA)는 챗GPT와 같은 LLM 기반 도구를 임상 결정에 사용하지 말 것을 권고하고 있다. AMA 전임 회장 제시 에렌펠드(Jesse Ehrenfeld) 박사는 “현재로서는 이러한 도구들이 항상 정확한 답변을 제공한다는 확신이 없다”고 지적했다. 미국의학협회는 의사들이 새로운 기술을 사용할 때 검증된 긍정적 결과가 있는 기술을 사용하고, 기관들이 의사들에게 제공하는 기술이 최고 수준의 표준을 충족하도록 할 것을 권고한다.
현재 미국에서 의료 AI 도구에 대한 유일한 규제 경로는 식품의약국(FDA)을 통하는 것이지만, 여러 규제 기관들이 이 문제를 검토 중이다. FDA는 의료기기에 대한 기존 규제 프레임워크에 따라 AI와 머신러닝(ML)을 평가하고 있으며, 지금까지 950개의 AI/ML 기반 의료기기를 승인했다. 2019년에는 이러한 기술을 어떻게 규제할지 검토하기 시작했고, 2023년에는 규제 접근 방식을 구체화하는 초안 지침을 발표했다.
FDA의 감독을 보완하기 위해 보건복지부(HHS) 내 국가 건강정보기술조정관실(ONC/ASTP)도 자체 임무를 수행하고 있다. 2024년 12월 31일부터 새로운 투명성 요건이 발효되어 기술 공급업체들은 고객에게 AI 도구가 전자건강기록(EHR)과 어떻게 상호작용하는지 공개해야 한다. 이는 광범위한 첫 단계로, 아직 특정한 검증 지표가 요구되지는 않지만, ONC는 의료 조직이 모든 공급업체에게 투명성을 요구하기 시작하여 더 높은 품질의 제품을 장려하기를 바라고 있다.
의사 AI 교육의 부재: 설문 응답자 대부분이 AI 위험성 교육 필요성 인정
국가적인 기준이 아직 없는 상황에서 AI 사용에 대한 제한은 개별 기관에 달려 있다. 생물의학 정보학 및 AI 전문가에 따르면, 기관의 규모가 클수록 AI 사용에 관한 내부 거버넌스 프레임워크를 갖추고 있을 가능성이 높다. “병원 시스템은 위험을 회피하는 경향이 있어 매우 느리고 신중하게 움직인다”고 ModelOp의 헬스케어 및 책임 AI 부사장인 포레스트 파스칼(Forrest Pascal) 박사는 말했다. 의료 전문가들은 AI 도구에 대한 교육 필요성을 강조한다. 엘크 리버 마취 협회(Elk River Anesthesia Associates)의 마취과 의사인 사라 게바우어(Sarah Gebauer) 박사는 “사람들이 이것에 대해 알고 더 잘 이해하기를 절실히 원한다”고 말했다. “적절한 교육이 없다면, 어떤 도구도 위험할 수 있다.”
의사들을 대상으로 한 설문조사에서 거의 모든 응답자가 AI 관련 위해와 그 완화에 대해 더 배우고 싶다고 답했다. 마찬가지로, 정신과 의사를 대상으로 한 조사에서도 거의 모든 의사가 LLM 기반 챗봇을 이해하기 위해 더 많은 지원과 교육이 필요하다고 느꼈다. 국립의학아카데미(NAM)가 주최한 건강 전문직 교육에서의 AI를 탐구하는 워크숍에는 400명 이상, 진단에서의 AI 잠재력을 검토하는 또 다른 NAM 행사에는 1,000명 이상이 참석했다.
의료 교육에서는 정보학이 더 많이 통합되어야 한다는 목소리가 높아지고 있다. “정보를 찾는 기술이나 방법을 가르치는 데 충분히 노력하지 않았다”고 브리검 앤 위민스 병원(Brigham and Women’s Hospital)의 베이츠(Bates) 박사는 말했다. “의대에서, 그리고 지속적인 의료 교육을 통해 사람들을 가르칠 필요가 있다. 모든 사람이 이러한 도구가 어떻게 작동하는지 알아야 한다.”
FAQ
Q: 왜 의사들이 검증되지 않은 AI 챗봇을 사용하는 건가요?
A: 의사들은 시간 절약(76.6%)과 사용 편의성(75.7%)을 주요 이유로 꼽습니다. 의학 지식은 73일마다 두 배로 증가한다고 추정되어, 모든 정보를 기억하는 것이 불가능합니다. 또한 기존의 신뢰할 수 있는 의학 데이터베이스는 대부분 유료인 반면, 챗GPT는 무료로 이용할 수 있습니다.
Q: AI 챗봇을 의료에 사용할 때 가장 큰 위험은 무엇인가요?
A: 가장 큰 위험은 AI 챗봇이 생성하는 ‘환각'(부정확하거나 만들어진 정보)과 중요한 맥락이 누락될 가능성입니다. 챗봇이 제공하는 정보가 정확해 보여도 실제로는 잘못되었거나 환자에게 해로울 수 있으며, 의사가 환자의 중요한 정보(예: 임신이나 알레르기)를 입력하지 않으면 부적절하거나 위험한 치료법을 제안할 수 있습니다.
Q: 미국에서는 의료용 AI 챗봇에 대한 규제가 어떻게 이루어지고 있나요?
A: 현재 FDA(식품의약국)만이 의료 AI 도구를 규제할 권한이 있으며, 지금까지 950개의 AI/ML 기반 의료기기를 승인했습니다. 2024년 12월부터는 AI 기술 공급업체들이 AI 도구가 전자건강기록과 어떻게 상호작용하는지 공개해야 하는 새로운 투명성 요건이 발효됩니다. 그러나 아직 공공 챗봇의 임상 사용에 대한 명확한 국가 표준은 없는 상태입니다.
해당 기사에서 인용한 리포트 원문은 링크에서 확인할 수 있다.
이미지 출처: Fierce Healthcare
기사는 클로드와 챗GPT를 활용해 작성되었습니다.