의사 없이도 CT 촬영 결과를 해석할 수 있을까? MRI와 내시경 영상을 텍스트로 해석하는 AI의 등장

Multimodal generative AI for interpreting 3D medical images and videos
이미지 출처: Multimodal generative AI for interpreting 3D medical images and videos

Multimodal generative AI for interpreting 3D medical images and videos


비디오-텍스트 AI로 수천 장의 의료 이미지를 한 번에 처리

의료 분야에서 인공지능의 활용은 이미 전자건강기록 요약, 고위험 환자 식별, 의료 영상 내 병변 감지 등 다양한 영역에서 의사들에게 도움을 제공하고 있다. 그러나 언어와 시각 정보를 통합하는 비전-언어 생성형 인공지능(Vision-Language Generative AI)은 특정 의료 분야를 넘어 의료 시스템 전반에 걸쳐 더 큰 잠재력을 가지고 있다.

Jung-Oh Lee, Hong-Yu Zhou 등의 연구진은 ‘Multimodal generative AI for interpreting 3D medical images and videos 3D’라는 제목의 논문을 통해 비디오-텍스트 생성형 AI 모델을 3D 의료 영상(CT/MRI)과 의료 동영상(내시경/복강경) 분석에 적용하는 혁신적인 접근법을 제안했다. 핵심 아이디어는 3D 의료 영상을 비디오처럼 취급하여 최신 비디오 모델의 강력한 기능을 의료 영상 해석에 활용하는 것이다. 이 접근법은 여러 영상 시퀀스를 동시에 분석하고 시술 중 실시간 AI 지원을 제공할 수 있다는 장점이 있다.

비디오-텍스트 생성형 AI는 텍스트와 비디오를 생성하는 능력을 갖추고 있다. 이러한 모델들은 비디오 설명 생성, 비디오 내용에 대한 질문 답변, 텍스트 쿼리를 통한 비디오 내 특정 콘텐츠 검색 등 다양한 작업을 수행할 수 있다. 최근 OpenAI의 GPT-4o, Google DeepMind의 Gemini 1.5와 같은 멀티모달 대규모 언어 모델(LLM)도 비디오 관련 작업을 수행할 수 있게 되어 비디오-텍스트 생성형 모델 범주에 포함된다.

Multimodal generative AI for interpreting 3D medical images and videos


CT와 MRI는 일반 비디오와 어떻게 다른가

3D 의료 영상과 일반 비디오의 주요 차이점은 의료 영상 장치의 특정 기술과 물리학, 그리고 촬영되는 특정 해부학적 대상에서 비롯된다. 이러한 차이점들이 비디오-텍스트 생성형 모델을 단층촬영(CT, MRI) 영상과 의료 동영상에 적용하는 데 도전 과제를 만든다.

일반 비디오 프레임은 일반적으로 8비트, 3채널 RGB 이미지인 반면, 3D 의료 영상은 주로 DICOM 형식의 그레이스케일 이미지로 12비트 또는 16비트 픽셀 범위를 가진다. 의료 영상의 더 넓은 픽셀 범위는 영상의 정확한 해석을 위해 적절한 윈도잉(windowing)이 필요하다. 예를 들어, CT 스캔은 뼈와 폐 조직을 시각화하기 위해 다른 값 범위가 필요하며, MRI는 벤더와 프로토콜에 따라 병변을 강조하기 위한 특정 윈도잉이 필요하다.

위장관 내시경 및 복강경 비디오 역시 색상 공간과 확대율에서 일반 비디오와 차이가 있다. 이들은 종종 협대역 영상(Narrow-band imaging, NBI)이나 적색 이색 영상(Red dichromatic imaging, RDI)과 같은 고급 영상 기술을 사용하여 특정 해부학적 특징의 가시성을 향상시킨다.

또한 3D 의료 영상은 종종 추가 공간축 외에도 펄스 시퀀스와 조영상 등 추가 차원을 포함한다. 예를 들어, MRI는 동일한 해부학적 구조 내에서 다른 조직 특성을 보여주기 위해 T1 강조, T2 강조, 확산 강조 이미지와 같은 다양한 펄스 시퀀스를 사용한다. 이러한 특성으로 인해 3D 의료 영상은 자체-멀티모달 속성을 나타낸다.

현대 비디오-텍스트 AI 모델로 수천 개 프레임 동시 처리

3D 의료 영상에 비디오-텍스트 모델을 적용하는 가장 간단한 방법은 그레이스케일 DICOM 슬라이스를 RGB로 변환하고 “시간축”을 따라 이어붙여 긴 비디오를 만드는 것이다. 표준 RGB 비디오에 비해 DICOM 이미지의 넓은 픽셀 강도 범위로 인해 여러 스캔 윈도우가 필요한 경우, 각 윈도우가 있는 별도의 스택을 생성하여 시간축을 따라 이어붙일 수 있다.

최근 비디오-텍스트 모델의 발전으로 수천 개의 프레임을 동시에 처리할 수 있게 되었다. 이러한 능력은 수백 개의 슬라이스로 구성된 3D 의료 영상 연구뿐만 아니라 여러 관련 연구를 동시에 수용하기에 충분하다. 긴 비디오를 만드는 방식은 시퀀스/상 간의 스캔 범위 변화와 환자 호흡으로 인한 위치 차이와 같은 문제를 해결한다.

시너지적 정보를 추출하고 3D 의료 영상을 정확하게 해석하기 위해서는 여러 상과 시퀀스를 동시에 처리하고 의료 맥락과 메타데이터를 이해하는 것이 중요하다. 비디오-텍스트 모델은 전자 건강 기록의 텍스트 입력, 임상 이력, 실험실 결과, 그리고 3D 이미지에 대한 날짜, 단계, 획득 매개변수와 같은 메타데이터를 통합할 수 있다.

내시경 영상의 연동 운동까지 AI가 분석: 실시간 시술 중 의사 의사결정 지원 가능

긴 비디오 입력이 가능한 비디오-텍스트 모델은 풍부한 시간적 정보를 포함하는 의료 동영상 분석에 특히 적합하다. 예를 들어, 내시경 검사 중 위장관의 연동 운동을 관찰하면 소화 기능에 대한 귀중한 통찰력을 얻을 수 있다. 이러한 시간적 분석은 비비디오 모델의 능력을 넘어선다.

내시경/복강경의 가변적인 조명과 체액, 기포, 잔해물의 존재로 인해 특징지어지는 동적 특성은, 종종 전통적인 AI 모델에서 오류를 발생시킨다. 그러나 확장된 입력을 가진 비디오-텍스트 모델은 전체 비디오 전반에 걸친 포괄적인 정보를 활용하여 이러한 문제를 완화할 수 있다.

일반 비디오와 유사하게 의료 동영상을 취급하는 것이 자연스러운 접근 방식이지만, 내시경 및 복강경 데이터의 고유한 특성을 처리하기 위해 색상 공간 변환, 이미지 향상, 내시경 광원으로 인한 반사 제거와 같은 특정 전처리 단계가 필요할 수 있다.

의사의 문서화 시간 대폭 감소: 자동 보고서 생성부터 유사 사례 검색까지 AI가 해결

비디오-텍스트 생성형 모델의 의학적 적용은 임상 워크플로우, 진단 정확도, 의사 간 소통을 향상시키고 교육 및 훈련을 위한 귀중한 도구를 제공할 수 있다. 이러한 모델은 3D 의료 영상과 의료 동영상 모두에 대한 예비 보고서를 자동으로 작성하여 의사가 문서화에 소비하는 시간을 크게 줄일 수 있다.

비디오-텍스트 검색 기술은 의사가 단층촬영 또는 의료 비디오 데이터베이스에서 유사한 사례를 빠르게 검색하여 비교 연구를 촉진하고 희귀하거나 까다로운 사례 진단을 지원할 수 있다. 이 기술은 또한 의사 간 소통을 개선할 수 있다. 의료 데이터의 일반적인 문제는 적절한 주석 없이 서면 소견과 영상을 상관시키는 것이다. 전통적으로 이는 전문가와의 상담이 필요하다. 비디오-텍스트 생성형 모델은 서면 보고서에 해당하는 관련 이미지 슬라이스나 비디오 프레임을 표시하고 추가 명확화를 위한 질의응답 기능을 제공하여 이 과정을 간소화할 수 있다.

의료 AI의 최대 난관은 데이터 부족: 다양한 모델 등장에도 3D 의료 데이터 제한적

3D 의료 영상 및 의료 동영상에 비디오-텍스트 모델을 적용하는 주요 도전 과제는 데이터 부족이다. 비디오-텍스트 모델을 위한 자기 지도 학습 방법이 발전했지만, 3D 의료 영상과 의료 동영상에 적합한 오픈소스 데이터셋은 몇 개의 작은 데이터셋만 존재한다. 따라서 실용적인 접근법은 기존 비디오-텍스트 데이터셋에서 비디오-텍스트 모델을 사전 훈련한 다음 3D 의료 데이터나 의료 비디오에서 미세 조정하는 것이다.

의료 분야에서는 BioMedGPT, MedPaLM, LLaVa-Med, MedVersa 등 다양한 비전-언어 모델이 등장했다. 그러나 이러한 모델 대부분은 다중상 3D 이미지나 긴 의료 비디오를 적절히 처리할 수 없으며, 훈련 중에 여러 상이나 시퀀스를 동시에 활용하지 않는다. 제안된 훈련 방법은 이러한 모델이 강력한 해석 능력을 개발하는 데 도움이 될 수 있지만, 구현을 위해서는 완전한 이미지 시퀀스와 종단 연구를 포함하는 신중하게 큐레이션된 데이터셋이 필요하다.

또한 3D 의료 영상 및 비디오 해석에서 모델 성능을 평가하기 위한 다운스트림 작업과 벤치마크에 적합한 데이터셋도 부족하다. 이러한 리소스 없이는 비디오-텍스트 모델이 의료 영상 및 비디오 해석에서 어떻게 실패하는지 제대로 평가할 수 없다. 추론 모델은 이 영역에서 유망한 가능성을 보이지만, 적절한 추론 데이터셋이 아직 존재하지 않는다. 다행히도 방사선학 및 내시경/복강경 보고서에는 이미 상당한 추론 정보가 포함되어 있어 이러한 데이터셋 구축을 단순화할 수 있다.

환자 프라이버시 보호하며 AI 발전시키는 방법

비디오-텍스트 생성형 모델의 의학적 응용 성공은 임상 워크플로우 혁신, 진단 정확도 향상, 의사 간 소통 개선, 교육 및 훈련을 위한 귀중한 도구 제공 등 의료 분야에 큰 변화를 가져올 수 있다. 그러나 이러한 유망한 잠재력에도 불구하고 여러 과제가 해결되어야 한다.

이러한 과제에는 자기 지도 학습에 적합한 대규모 오픈소스 데이터셋의 제한된 가용성, 시너지적 정보를 포함하는 데이터에 대한 모델 훈련의 복잡성, 3D 의료 영상 및 의료 비디오의 고유한 구조와 관련된 엔지니어링 장벽이 포함된다. 이러한 장벽을 극복하기 위해 향후 연구는 환자 개인정보를 보호하면서 포괄적인 데이터셋을 만들고, 모델의 다중 시퀀스 정보 통합 능력을 평가하기 위한 벤치마크를 개발하며, 3D 의료 영상 및 의료 비디오의 복잡한 멀티모달 특성에 맞게 특별히 맞춤화된 훈련 방법론을 발전시키는 데 초점을 맞춰야 할 것이다.

FAQ

Q: 비디오-텍스트 생성형 AI를 의료 영상에 적용하면 어떤 이점이 있나요?

A: 비디오-텍스트 생성형 AI를 의료 영상에 적용하면 자동 보고서 생성, 유사 사례 검색, 실시간 시술 가이드 제공, 교육 콘텐츠 생성 등 다양한 이점이 있습니다. 이는 의사의 업무 효율성을 높이고, 진단 정확도를 향상시키며, 환자 결과를 개선하는 데 도움이 됩니다.

Q: 3D 의료 영상과 일반 비디오의 주요 차이점은 무엇인가요?

A: 3D 의료 영상은 일반 비디오와 달리 더 넓은 픽셀 범위(12-16비트)를 가지며, 여러 시퀀스나 조영상을 포함하는 자체-멀티모달 특성을 가집니다. 또한 메타데이터(펄스 시퀀스, 환자 정보 등)가 해석에 중요하며, 해부학적 구조의 공간적 연결성을 이해하기 위한 고유한 ‘월드 모델’이 필요합니다.

Q: 멀티모달 생성형 AI 모델의 의료 적용에서 가장 큰 도전 과제는 무엇인가요?

A: 가장 큰 도전 과제는 대규모 의료 데이터셋의 부족, 환자 개인정보 보호 문제, 시너지적 정보 통합을 위한 모델 훈련의 복잡성, 그리고 모델 성능을 평가하기 위한 적절한 벤치마크의 부재입니다. 이러한 문제들은 의료 분야에 특화된 데이터셋 구축과 훈련 방법론 개발을 통해 해결해야 합니다.

해당 기사에서 인용한 리포트 원문은 링크에서 확인할 수 있다.

이미지 출처: Multimodal generative AI for interpreting 3D medical images and videos

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




의사 없이도 CT 촬영 결과를 해석할 수 있을까? MRI와 내시경 영상을 텍스트로 해석하는 AI의 등장 – AI 매터스 l AI Matters