A framework for considering the use of generative AI for health
스탠포드 대학 54명 전문가가 제시한 의료용 AI 안전 가이드
스탠포드 대학교(Stanford University) 디지털헬스센터 연구진이 의료 분야에서 생성형 AI(Generative AI, GenAI) 활용을 위한 포괄적 가이드라인을 제시했다. 이번 연구는 2022년 11월 챗GPT(ChatGPT) 출시 이후 급속히 확산되고 있는 의료용 생성형 AI 기술의 안전하고 효과적인 도입을 위해 마련되었다.
연구진은 2024년 10월과 12월 두 차례의 라운드테이블 이벤트와 의료 AI 전문가들과의 심층 인터뷰를 통해 의료진, 정책 입안자, 학계, 기술 구현 담당자 등 54명의 전문가 의견을 수렴했다. 생성형 AI는 텍스트, 이미지, 오디오 등 새로운 콘텐츠를 생성할 수 있는 컴퓨터 기술로, 대규모 언어 모델(Large Language Model, LLM)인 GPT-4나 클로드(Claude) 같은 시스템과 이미지 생성 도구인 미드저니(Midjourney) 등이 대표적인 예시다.
의료진이 가장 주목하는 AI 활용법 5가지: 요약부터 챗봇까지
연구진은 의료 분야에서 대규모 언어 모델이 뛰어난 성능을 보이는 5가지 주요 작업 영역을 제시했다.
첫 번째는 요약(Summarization) 기능으로, 긴 의료 가이드라인을 진료실에서 즉시 활용할 수 있는 간결한 요약본으로 변환하는 작업이다.
두 번째는 분류(Classification) 기능으로, 온라인 환자 메시지를 의료적 문의와 행정적 문의로 구분하여 효율적인 처리를 가능하게 한다.
세 번째는 추출(Extraction) 기능으로, 환자의 의료 기록에서 진단, 처방약, 검사 결과 등 핵심 데이터를 식별하고 추출하는 작업을 담당한다.
네 번째는 번역(Translation) 기능으로, 언어 간 번역뿐만 아니라 전문적인 임상 문서를 환자가 이해하기 쉬운 형태로 변환하는 작업을 포함한다.
마지막으로 대화(Conversation) 기능은 사용자 질문에 실시간으로 개인화된 응답을 제공하는 헬스 챗봇 형태로 구현된다.
의약품과 다른 AI 평가의 특별함: 지속적 진화하는 기술의 측정법
연구는 생성형 AI 도구의 의료 분야 적용을 위해서는 기존 건강 관련 결과 측정 기준이 광범위하게 적용 가능하지만, 생성형 AI 도구만의 특별한 측정 및 벤치마킹 기준이 부족하다고 지적했다. 의료연구위원회(Medical Research Council)와 국립보건연구원(National Institute for Health Research)의 2021년 복합 중재 개발 및 평가 프레임워크에 따르면, 평가자들은 이해관계자들과 협력하여 가장 중요한 결과를 평가해야 한다.
대규모 언어 모델을 사용하여 질의에 대한 응답을 생성하는 도구의 경우, 응답의 정확성과 완성도, 기존 비생성형 AI 방법 대비 시간 및 비용 절약 효과가 핵심 지표가 된다. 또한 이해가능성, 공감 능력, 적절한 어조와 스타일 등 정성적 요소도 중요한 평가 기준으로 작용한다. 의약품과 달리 생성형 AI 결과물은 지속적으로 진화하므로, 도구의 정확성을 보장하기 위해 평가와 검토 과정이 지속적으로 이루어져야 한다.
아프리카 36% 인터넷 접근률이 보여주는 AI 도입의 4단계 위험성
연구진은 생성형 AI의 의료 분야 활용 시 직면하는 위험 요소들을 4단계 피라미드 모델로 제시했다. 가장 하위층은 사회적 편견과 문제를 반영하는 위험으로, 성별 차별과 같은 기존 문화적 편견이 AI 시스템을 통해 강화되고 전파될 수 있는 문제다. 그 위층은 디지털 격차와 기본 의료 인프라 부족 위험으로, 세계은행(World Bank) 2022년 통계에 따르면 아프리카 거주민 중 36%만이 광대역 인터넷에 접근할 수 있는 상황이다.
세 번째 층은 훈련 데이터의 한계로, 현재 대부분의 생성형 AI가 서구 문화권의 유럽 언어 데이터로 훈련되어 다른 언어와 문화적 맥락에서의 한계를 보인다는 점이다. 최상위층은 모델 기반 위험으로, ‘환각(hallucination)’ 현상이라 불리는 그럴듯해 보이지만 부정확한 정보 생성 위험, 비용 및 환경 영향, 데이터 보안 및 개인정보 보호 문제가 포함된다.
연구진은 이러한 위험 요소들에 대한 구체적인 완화 전략도 함께 제시했다. 특정 사용 사례에 대한 허용 가능한 오류율 고려, 검색 증강 생성(Retrieval Augmented Generation) 같은 기술을 통한 도메인별 응답 개선, 지속적인 인간 감독 체계 구축 등이 주요 전략으로 포함되었다.
FAQ
Q: 생성형 AI가 의료 분야에서 가장 효과적으로 활용될 수 있는 영역은 무엇인가요?
A: 의료 가이드라인 요약, 환자 메시지 분류, 의료 기록 데이터 추출, 전문 용어 번역, 헬스 챗봇 등 5가지 핵심 영역에서 뛰어난 성능을 보입니다. 특히 반복적이고 정형화된 작업에서 높은 효율성을 나타냅니다.
Q: 의료용 생성형 AI 사용 시 가장 주의해야 할 위험 요소는 무엇인가요?
A: 부정확한 정보 생성(‘환각’ 현상), 훈련 데이터의 편향성, 개인정보 보호 문제, 디지털 접근성 격차 등이 주요 위험 요소입니다. 이를 해결하기 위해 지속적인 인간 감독과 엄격한 평가 체계가 필수적입니다.
Q: 개발도상국에서 의료용 생성형 AI를 도입할 때 특별히 고려해야 할 사항이 있나요?
+A: 인터넷 접근성, 현지 언어 지원, 기본 의료 인프라 수준을 우선적으로 평가해야 합니다. 아프리카의 경우 광대역 인터넷 접근률이 36%에 불과하므로, 디지털 인프라 구축과 함께 단계적 도입이 필요합니다.
해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.
이미지 출처: A framework for considering the use of generative AI for health
기사는 클로드와 챗GPT를 활용해 작성되었습니다.