Consolidated Health Economic Evaluation Reporting Standards for Interventions That Use Artificial Intelligence (CHEERS-AI)
AI 의료기술이 몰려온다
의료 현장에서 인공지능(AI) 기술의 활용이 빠르게 증가하고 있다. 흉부 X-ray 분석이나 방사선 치료 계획을 지원하는 등 다양한 AI 의료기기들이 시장 승인을 받고 있다. 새로운 기술이 도입되면 항상 따라오는 질문이 있다. “정말 효과가 있는가?”, “비용 대비 가치가 있는가?” AI 의료기기도 예외가 아니다. 의료기관들은 비싼 비용을 들여 AI 시스템을 도입하기 전에 그 가치를 꼼꼼히 따져보아야 한다.
AI 의료기술 평가를 위한 새로운 기준의 탄생
이런 배경에서 유럽연합의 차세대 의료기술평가(HTx) 프로젝트의 지원으로 CHEERS-AI가 개발됐다. 전문가들은 9점 척도를 사용한 3차례의 델파이 조사를 실시했다. 1차 설문에 58명, 2차 설문에 42명, 3차 설문에 31명이 참여했으며, 최종 합의 회의에는 9명의 전문가가 모였다. 건강경제학자(53%), 보건의료기술평가 전문가(26%), AI 전문가(17%) 등 다양한 분야의 전문가들이 유럽, 북미, 아시아, 오세아니아 등 17개국에서 참여했다.
CHEERS-AI의 개발 과정과 특징
기존의 의료기술 평가 기준인 CHEERS 2022는 일반적인 의료기술을 평가하기 위해 만들어졌다. 하지만 AI 의료기술의 독특한 특성을 제대로 반영하지 못했다는 한계가 있었다. CHEERS-AI는 이런 한계를 극복하기 위해 28개의 기존 항목에 AI 특성을 반영한 10개의 새로운 항목을 추가했다. 또한 기존 항목 중 8개 항목에 AI 관련 세부 지침을 보완했다.
개발 과정에는 58명의 전문가가 참여해 델파이 연구를 진행했으며, 건강경제학자(53%), 보건의료기술평가 전문가(26%), AI 전문가(17%) 등 다양한 분야의 전문가들이 의견을 제시했다. 유럽, 북미, 아시아, 오세아니아 등 17개국의 전문가들이 참여했다.
CHEERS-AI의 주요 보고 항목
AI의 자율성과 의사결정 관여도는 매우 중요한 평가 요소다. AI가 직접 치료 행위를 수행하는지, 아니면 의료진의 의사결정을 지원하는 수준인지, 혹은 단순히 정보만 제공하는지를 평가한다. 이는 AI 시스템의 실제 임상 현장에서의 역할과 책임 범위를 명확히 하는데 도움을 준다.
AI의 학습 능력도 주요 평가 대상이다. 시간이 지남에 따라 성능이 향상되는지 여부와 개별 환자 수준에서의 학습 효과를 측정하는 방법을 살펴본다. 또한 이러한 학습이 실제 의료 결과에 어떤 영향을 미치는지도 분석한다.
AI 개발 및 검증 과정의 투명성도 중요하게 다룬다. AI 구성요소의 개발 방법론과 사용된 학습 데이터의 특성, 잠재적 편향성 여부를 검토한다. 또한 성능 검증 방법의 적절성과 결과의 신뢰성도 꼼꼼히 평가한다.
의료 혜택 평가에서는 AI가 환자의 건강 결과를 어떻게 개선하는지 살펴본다. 진단의 정확도 향상이나 의사결정 시간 단축 등 구체적인 혜택을 분석하고, 기존 치료 방식과 비교했을 때의 장점을 평가한다.
비용 측면에서는 AI 시스템 구매 비용의 세부 구성요소를 분석한다. 초기 구매 비용뿐만 아니라 시스템 구현과 유지보수에 필요한 추가 비용, 의료진 교육 등 부대 비용까지 포괄적으로 고려한다.
기존 평가 항목의 AI 관련 보완 사항
기존 CHEERS 2022의 평가 항목들도 AI의 특성을 반영하여 보완되었다. 중재 방법 설명 부분에서는 AI 기술의 분류와 위험도, 사용된 기법의 상세 내용, 버전 관리와 업데이트 정책 등을 다룬다.
결과 측정에서는 AI의 특성이 결과에 미치는 영향과 알고리즘 편향의 영향을 평가하며, 연구 결과의 일반화 가능성도 검토한다.
불확실성 분석에서는 AI 관련 요소들이 비용-효과성에 미치는 영향을 평가하고, AI 성능 변화가 가져올 수 있는 잠재적 위험도 분석한다.
이러한 종합적인 평가 기준들은 AI 의료기술의 특성을 총체적으로 고려하여 그 가치를 정확히 평가할 수 있도록 돕는다. 또한 의료기관들이 AI 도입을 결정할 때 고려해야 할 핵심 사항들을 체계적으로 제시한다.
AI 의료기술 평가의 큰 그림
CHEERS-AI는 AI 의료기술 평가를 위한 여러 기준 중 하나다. 임상시험 계획을 위한 SPIRIT-AI, 임상시험 결과 보고를 위한 CONSORT-AI, 예측 모델 개발을 위한 TRIPOD-AI, 예측 모델 검증을 위한 PROBAST-AI 등 다양한 기준들이 함께 발전하고 있다. 디지털 헬스 환자 그룹도 최종 체크리스트 검토에 참여해 사용자 관점을 반영했다.
기대 효과와 의의
CHEERS-AI는 AI 의료기술의 비용-효과성 평가 보고의 투명성과 재현성을 높일 것으로 기대된다. 의사결정자들이 AI 의료기술의 특성과 비용-효과성 결론에 미치는 영향을 더 잘 이해할 수 있도록 도울 것이다.
급변하는 AI 의료기술 분야의 특성을 고려해 CHEERS-AI도 필요에 따라 수정, 보완될 수 있도록 했다. 이는 AI 의료기술 경제성 평가의 발전을 위한 중요한 첫걸음이 될 것으로 평가된다.
기사에 인용된 리포트의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기