미국 립스컴 대학교(Lipscomb University) 약학과 연구진이 개인의 유전자 정보에 맞춰 약물을 처방하는 인공지능 시스템의 성능을 검증하는 연구를 완료했다. 이번 연구는 AI가 의료진의 약물 처방 결정을 얼마나 정확하게 도울 수 있는지 과학적으로 입증하기 위해 진행됐다.
최근 병원들이 환자 정보를 디지털로 관리하는 전자 의료기록 시스템과 의사의 진료를 돕는 컴퓨터 시스템을 도입하면서, 개인별 맞춤 처방이 현실적으로 가능해졌다. 개인의 유전자 정보에 맞춰 약물을 선택하고 용량을 조절하면 부작용은 줄이고 치료 효과는 높일 수 있다. 이런 발전을 위해 인공지능과 머신러닝 기술이 활용되고 있다. GPT-4 같은 AI 모델은 검색 증강 생성(RAG) 기술을 통해 의료진이 사용하는 권위 있는 약물 가이드라인을 직접 학습해서 더 정확한 처방 정보를 제공한다.
260가지 약물 질문으로 AI 성능 시험… 의료진 놀란 결과
헬릭스 AI(Helix AI) 회사에서 개발한 ‘셰르파 Rx(Sherpa Rx)’는 대규모 언어 모델을 사용해 약물 처방 가이드라인을 학습한 의료용 AI다. 이 AI가 얼마나 정확한지 알아보기 위해 연구진은 260개의 약물 관련 질문으로 시험을 실시했다.
시험 문제는 26개 약물 가이드라인에서 각각 10개씩 뽑아 만들었다. 예를 들어 혈전 치료제인 클로피도그렐과 CYP2C19 유전자의 관계, 유방암 치료제 타목시펜과 CYP2D6 유전자의 상호작용 등 다양한 약물과 유전자 조합을 다뤘다. 평가는 5점 만점으로 정확성, 관련성, 완전성, 명확성을 측정했다.
1단계 vs 2단계 비교실험… 데이터 추가할수록 성능 향상
연구는 두 단계로 나눠 진행됐다. 1단계에서는 기본 약물 가이드라인만 AI에 학습시켰고, 2단계에서는 더 많은 약물 데이터베이스를 추가로 학습시켜 성능 변화를 확인했다.
1단계 결과(260개 질문), 정확성 4.9점, 관련성 5.0점, 명확성 5.0점, 완전성 4.8점, 재현율 0.99점을 기록했다. 일부 질문(20개)을 골라 1단계, 2단계, 그리고 일반적인 챗GPT-4o mini와 비교했을 때, 2단계 셰르파 Rx는 1단계보다 정확성(4.6 vs 4.4점)과 완전성(5.0 vs 4.8점)에서 더 좋은 결과를 보였다. 챗GPT-4o mini는 관련성(5.0점)과 명확성(4.9점)은 비슷했지만 정확성(3.9점)과 완전성(4.2점)에서는 낮은 점수를 받았다.
실전 테스트 90% 정확도… 구글·오픈AI 제품 모두 앞질러
20문항으로 구성된 실제 상황 테스트에서 셰르파 Rx는 90%의 정확도를 달성했다. 이는 챗GPT-4omini 70%, Claude 3.7 Sonnet 85%, Gemini 2.0 Flash 80%보다 모두 높은 수치다. 이런 성과는 특정 약물과 유전자에 특화된 검색 기능을 추가하고 AI가 한 번에 처리할 수 있는 정보량을 늘린 결과다.
통계 분석 결과를 보면, 2단계가 1단계보다 전반적으로 정확성이 높아졌지만 통계적으로 큰 차이는 아니었다. 하지만 2단계 셰르파 Rx는 챗GPT-4omini와 비교했을 때는 통계적으로 확실히 더 정확했다는 결과가 나왔다.
한계점도 분명… “의사 대신이 아닌 보조 역할”
연구진은 이런 성과에도 불구하고 몇 가지 한계점을 인정했다. 약물유전학 정보 해석에 오류가 있으면 환자 안전에 문제가 될 수 있어서 정확한 해석이 매우 중요하다. 약물유전학이란 사람마다 다른 유전자가 약물 효과에 어떤 영향을 주는지 연구하는 분야다. 같은 약이라도 사람마다 효과가 다르고 부작용도 다른 이유가 바로 유전자 차이 때문이다. 실전 테스트에서 한 문제에 정답이 여러 개 있어서 정확도 평가에 어려움이 있었고, 일부 시험에서는 샘플 수가 적어서 통계적 신뢰도가 제한적이었다.
또한 환자마다 다른 기존 질병, 복용 중인 다른 약물, 신장과 간 기능 차이 등 복잡한 요소들을 모두 고려하기 어렵다는 점도 한계로 지적됐다. 연구진은 셰르파 Rx가 의사의 임상 판단을 대체하는 것이 아니라 보완하는 의사결정 지원 도구라고 강조했다. 최종 치료 결정은 여전히 의료진이 환자 개별 상황을 고려해 내려야 한다.
FAQ
Q: 유전자 맞춤 처방 AI가 기존 병원 처방과 어떻게 다른가요?
A: 기존에는 의사가 평균적인 용량으로 약을 처방한 후 효과를 보며 조절했습니다. 유전자 맞춤 AI는 환자의 유전자 정보를 미리 분석해서 그 사람에게 가장 적합한 약과 용량을 처음부터 제안합니다. 이렇게 하면 부작용은 줄이고 치료 효과는 높일 수 있습니다.
Q: 검색 증강 생성(RAG) 기술이 왜 중요한가요?
A: RAG 기술은 AI가 최신 의료 정보와 가이드라인을 실시간으로 찾아서 활용할 수 있게 해주는 기술입니다. 단순히 기존에 학습한 내용만 사용하는 것이 아니라, 필요할 때마다 가장 정확하고 최신 정보를 찾아서 답변할 수 있습니다.
Q: 이런 AI가 의사를 대신할 수 있나요?
A: 아니요. 이 AI는 의사의 진료를 돕는 보조 도구입니다. AI가 유전자 정보를 바탕으로 약물 정보를 제공하면, 의사가 환자의 전체적인 상황을 고려해서 최종 처방을 결정합니다. 의사의 경험과 판단은 여전히 매우 중요합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Validating Pharmacogenomics Generative Artificial Intelligence Query Prompts Using Retrieval-Augmented Generation (RAG)
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.