• Home
  • AI Economy-Health
  • 챗GPT, 이제 엑스레이도 읽는다? 의료 영상 해석하는 생성형 AI의 부상

챗GPT, 이제 엑스레이도 읽는다? 의료 영상 해석하는 생성형 AI의 부상

Generative Models in Medical Visual Question Answering: A Survey
이미지출처: 이디오그램 생성

Generative Models in Medical Visual Question Answering: A Survey


“이 흐릿한 부분이 뭐죠?” – AI가 의사처럼 의료 영상을 이해하기 시작했다

중국 저장대학교 컴퓨터과학기술대학 및 마카오 폴리테크닉 대학 연구팀이 발표한 서베이 논문에 따르면, AI가 단순 진단을 넘어, 의사처럼 의료 영상을 분석하고 환자의 질문에 답변까지 내놓는 수준에 도달했다. 자연어 기반 의료 시각 질의응답(MedVQA) 기술이 X선, MRI, CT 스캔, 병리 슬라이드 등 다양한 의료 영상을 파악해, 마치 실제 의사에게 묻듯 자유로운 질의를 통해 해답을 얻을 수 있게 된 것이다.

불과 몇 년 전까지만 해도 AI는 “폐렴이 있다/없다” 정도의 객관식 선택을 제시하는 판별형 모델이 주류였다. 그러나 챗GPT 같은 생성형 AI가 빠르게 등장하면서, 이제는 주관식 답변 형태로 더 풍부하고 구체적인 정보를 제공할 수 있게 됐다.

일반적인 질문 예시로 “이 환자의 폐에 보이는 흐릿한 부분은 무엇인가?”라고 물어보면, AI는 “이 흐릿한 음영은 폐렴의 초기 징후로, 우측 하엽에 국한된 중등도 수준”처럼 자세한 설명까지 해줄 수 있다. 이는 멀리 떨어진 지역에서 의료 접근성이 떨어지는 경우나, 자동화 검진 시나리오 등에서 잘못된 인터넷 정보 대신 보다 신뢰할 수 있는 답변을 제공하는 길을 열었다는 평가다.

Generative Models in Medical Visual Question Answering A Survey


2023년, AI 의료 해석의 폭발적 성장 – 매년 2배씩 증가하는 연구 논문

MedVQA 연구 흐름을 살펴보면, 2018년 ImageClef 대회를 통해 처음 소개된 이후 관련 논문이 매년 거의 두 배씩 늘고 있다. 특히 2023년에는 생성형 MedVQA 연구가 폭발적으로 증가해, 한 해 발표된 논문만으로도 이전 5년간의 연구량을 뛰어넘었다는 분석이 나왔다.

가장 주목할 만한 발전은 LLM과 MLLM의 통합이다. LLM 기반 모델은 접두사 튜닝, LoRA, QLoRA와 같은 파라미터 효율적 미세 조정(PEFT) 기법을 통해 의료 영역에 적응하며, 비전 인코더와 LLM 간의 효과적인 연결을 구축한다. MLLM 기반 접근법은 Med-Flamingo, LLaVA-Med, HuatuoGPT-Vision 등을 포함하며, 다단계 사전학습과 지시 조정을 통해 의료 영상 이해 능력을 향상시킨다.

이러한 발전은 MedVQA 모델이 보다 유연하고, 해석 가능하며, 맥락을 인식할 수 있게 해주었다. 특히 MLLM을 활용한 최신 모델들은 오픈소스 벤치마크에서 인상적인 성능을 보여주고 있으며, 실제 임상 환경에서의 적용 가능성을 높이고 있다.

GPT-4가 의료 데이터를 만든다 – AI가 AI를 위한 의료 데이터 1,500만 건 생성

의료 AI 개발에 있어 가장 큰 장애물은 데이터 부족이다. 민감한 환자 정보를 다루고, 전문 지식으로 주석 작업을 해야 해 시간과 비용이 많이 들기 때문이다. 이를 해결하기 위해 최근에는 GPT-4 같은 대규모 언어 모델을 활용해, AI가 직접 다른 AI를 훈련시킬 데이터를 생성하는 획기적인 시도가 이어지고 있다.

‘LLaVA-Med’ 연구팀은 PubMed Central에서 1,500만 개에 달하는 생의학 이미지-텍스트 쌍을 뽑아낸 뒤, GPT-4에게 “이 의료 이미지를 보고 질문과 답변을 만들어 달라”고 지시해 방대한 의료 QA 데이터를 생성했다. 또 다른 팀인 ‘HuatuoGPT-Vision’은 GPT-4V(비전 기능이 탑재된 GPT-4)를 활용해 130만 건의 의료 QA 데이터셋인 ‘PubMedVision’을 구축했다. 이를 두고 전문가들은 “마치 AI가 의대생을 위해 교과서를 써주는 꼴”이라며 의미가 크다고 평가한다.

이 밖에 ‘MLe-VQA’ 데이터셋은 GPT-4를 통해 의사의 진단 추론 과정을 시뮬레이션하는 5단계 난이도별 QA 쌍을 만들었다. 단계는 인식(어느 장기인지), 세부사항(어떤 이상이 보이는지), 진단(가능한 질환), 지식 적용(적절한 치료법), 추론 과정(해당 진단에 도달한 단계별 이유 설명)으로 구성된다. 다만 이러한 자동 생성 데이터가 임상적으로 정확한지 최종적으로 검증하고 보완하는 작업은 여전히 전문가 몫이다.

AI vs 의사 대결? GPT-4가 의사처럼 평가자로 나선다

AI가 의료 영상을 정말로 정확히 해석하고 있는지 확인하는 방법은 무엇일까. 전통적으로는 생성된 답변과 실제 정답의 유사도를 측정하는 BLEU, ROUGE, BERTScore 같은 지표를 사용했다. 그러나 의료 현장에서는 단어 매칭보다 임상적 정확성이 훨씬 중요하다.

가령 “우측 하엽에 경미한 폐렴 소견이 보인다”와 “우측 하부 폐에 약간의 염증 변화가 보인다”는 표현은 다르지만 같은 임상 의미를 가진다. 반면 “양성”과 “악성”을 헷갈리면 큰 문제가 발생할 수 있다.

이를 해결하기 위해 최근에는 전문의가 직접 평가하거나, GPT-4나 DeepSeek 같은 고도화된 AI가 ‘의사 역할’을 맡아 정확성을 평가하는 방법이 도입되고 있다. ‘Med-Flamingo’ 연구에서는 BERT-sim 점수가 낮은 모델이 오히려 임상 평가에서 더 높은 점수를 받은 역설적인 결과도 나왔다.

또 다른 사례로 ‘Med-CoT’ 연구는 DeepSeek라는 AI를 평가자로 두었고, ‘LLaVA-Med’는 아예 GPT-4가 평가자 역할을 맡았다. 전문가들은 이를 두고 “AI 레지던트가 AI 전문의 지도를 받으며 배워가는 형태”라고 비유한다.

“이렇게 진단한 이유는…” AI, 의사처럼 설명하는 ‘MC-CoT’ 기술 등장

의사가 환자에게 단순히 결론만 알려주지 않고, 왜 그런 판단이 나왔는지 자세히 설명하듯이, AI도 점차 추론 근거를 함께 제시하는 방향으로 발전하고 있다. 대표적인 예가 ‘MC-CoT(Modular Collaborative Chain-of-Thought)’라는 새로운 프레임워크다.

MC-CoT는 방사선 모듈, 해부학 모듈, 병리학 모듈 등 총 세 가지 전문 영역으로 나누어 영상을 분석한다. 이후 대규모 언어 모델(LLM)이 전략적인 지침을 내려주면, 다중모달 대규모 언어 모델(MLLM)이 이미지 특성을 추출하고, 다시 LLM이 최종 답변을 도출한다. 마치 여러 과 전문의가 협업해 진단하는 과정과 유사하다는 평가다.

‘Med-Flamingo’ 같은 모델 역시 “우측 폐 하부에 경계가 불분명한 음영이 보인다. 폐렴의 초기 양상일 가능성이 높으며, 이는 전형적인 폐렴 패턴과 유사하기 때문이다”처럼 답변과 근거를 함께 제시할 수 있다. ‘Uni-Med’ 프레임워크도 사용자의 질문 의도를 분석해, 단계별 설명을 첨부한 답변을 내놓을 수 있도록 설계됐다.

의료 AI에 드리운 그림자… ‘환각’으로 인한 오진 위험

의료 영상 해석 AI가 눈부시게 발전하고 있지만, 해결해야 할 문제도 많다. 가장 치명적인 단점은 바로 “환각(Hallucination)” 현상이다. AI가 실제로 없는 내용을 지어내는 이 현상은 의료 분야에서 잘못된 진단이나 부적절한 치료를 초래할 수 있어 심각한 위험 요인으로 꼽힌다.

한 연구에서 정상 흉부 X-레이를 보여줬을 때, AI가 “우측 폐 상엽에 작은 결절이 있으며 추가 검사가 필요하다”라는 터무니없는 답을 내놓은 사례가 대표적이다. 이는 불필요한 검사나 환자 불안을 유발하고, 심각할 경우 잘못된 치료까지 이어질 수 있다.

이를 줄이기 위해서는 검색 증강 생성(RAG) 기법으로 검증된 의학 문헌을 참고하거나, 고품질 도메인별 데이터로 미세 조정해 의료 개념 이해도를 높이는 방안이 제시되고 있다. 또한 모델 자체에 신뢰도 점수를 부여해 불확실한 답변을 표시하게 하거나, 의료 전문가와의 협업으로 최종 점검을 거치는 절차도 중요하다.

한편, 수십억 개 파라미터를 갖춘 모델들을 임상 현장에 그대로 적용하기에는 컴퓨팅 자원 문제도 만만치 않다. 이를 해결하기 위한 LoRA나 QLoRA 같은 파라미터 효율적 미세 조정(PEFT) 기법이 도입되고 있지만, 실제 의료 현장에서 안정적으로 쓰이기까지는 더 많은 검증과 노력이 필요하다는 지적이다.

마지막으로, AI 의료 시스템이 FDA 같은 규제 기관의 인증을 받으려면 안정적인 정확도와 안전성을 입증해야 한다. AI 오진에 대한 법적 책임, 비대표적 훈련 데이터에 따른 편향, 환자 정보 보호 문제 역시 해결해야 할 과제다.

FAQ

Q: AI가 실제로 의사를 대체할 수 있나요?

A: 전문가들은 현재 기술로는 의사 대체보다는 보조 역할에 가깝다고 설명한다. AI가 영상 해석이나 예비 진단에 도움을 줄 수 있지만, 환자와의 소통이나 윤리적 판단 등은 여전히 인간 의사의 영역이다. 환각 현상 등 AI의 불완전성을 고려할 때, 의료 전문가의 감독은 필수적이라는 견해가 지배적이다.

Q: 일반인도 의료 AI를 쉽게 활용할 수 있을까요?

A: 점차 가능성이 높아지고 있다는 것이 업계의 중론이다. 이미 일부 서비스는 환자가 영상을 직접 업로드해 초기 해석을 얻을 수 있도록 개발 중이다. 다만 규제와 책임 소재, 정확성 문제 등을 고려할 때, 당분간은 의료 전문가가 동반하거나 감독하는 형태가 유력할 것으로 보인다. 환자 교육과 AI 해석 한계에 대한 안내도 필수다.

Q: 의료 AI에서 발생하는 환각 현상, 어떻게 알아차리나요?

A: 먼저 AI가 제공하는 신뢰도 점수를 확인하는 방법이 있다. 점수가 낮으면 환각 가능성이 높다는 신호다. 또 AI가 내놓는 근거가 논리적이고 영상에서 특정 부위를 명확히 언급하는지 살펴보는 것도 도움이 된다. 같은 질문을 다른 방식으로 물어봐서 일관성 여부를 판단하는 것도 하나의 방법이다. 그러나 가장 안전한 검증책은 역시 임상의의 최종 확인이다.



해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




챗GPT, 이제 엑스레이도 읽는다? 의료 영상 해석하는 생성형 AI의 부상 – AI 매터스