• Home
  • AI Economy-Health
  • 883만 장의 X선으로 학습한 AI, 위험한 폐 질환도 95% 이상 감지한다

883만 장의 X선으로 학습한 AI, 위험한 폐 질환도 95% 이상 감지한다

Diagnostic Accuracy and Clinical Value of a Domain-specific Multimodal Generative AI Model for Chest Radiograph Report Generation
이미지출처: Diagnostic Accuracy and Clinical Value of a Domain-specific Multimodal Generative AI Model for Chest Radiograph Report Generation

Diagnostic Accuracy and Clinical Value of a Domain-specific Multimodal Generative AI Model for Chest Radiograph Report Generation

883만 건의 X선-보고서 쌍으로 학습한 AI, 방사선과 업무 혁신 예고

생성형 인공지능(AI)은 의료 영상 분야에서 큰 변화를 가져오고 있다. 특히 ChatGPT와 같은 대규모 언어 모델의 등장은 의료 기술 환경에 중요한 변화를 일으키고 있다. 홍은경(Eun Kyoung Hong) 박사 연구팀은 다중모달 생성형 AI를 이용해 의사들이 흉부 X선 영상을 판독할 때 예비 보고서를 생성함으로써 진단 정확도를 높이고 임상적 가치를 제공할 수 있는지 조사했다. 이 연구는 방대한 데이터셋(총 883만 건 이상의 X선-보고서 쌍)을 기반으로 개발된 전문 AI 모델이 방사선 전문의의 판독과 유사한 수준의 성능을 보여주었음을 입증했다.

위급한 폐 질환도 놓치지 않는다: 기흉 95.3%, 피하기종 92.6% 감지율

연구팀이 공개한 논문에 따르면, 연구팀이 개발한 도메인 특화 다중모달 생성형 AI 모델은 흉부 X선 이미지를 분석해 자동으로 보고서를 생성한다. 이 모델은 13가지 주요 의학적 소견을 인식하는 능력을 테스트받았는데, 특히 기흉(pneumothorax)과 같은 치명적인 상태를 감지하는 데 95.3%의 높은 민감도를 보였다. 피하기종(subcutaneous emphysema) 감지에서도 92.6%의 민감도를 기록했다. 이는 전문의 수준에 준하는 성능으로, 중요한 의학적 이상을 놓치지 않고 발견하는 능력을 입증한다.

AI 모델의 성능은 여러 방사선 전문의가 합의한 참조 표준과 비교되었으며, 특히 전체 합의가 이루어진 경우에서 전체 의학적 소견에 대해 83.2%의 민감도와 87.9%의 특이도를 보였다. 이는 AI 모델이 실제 임상 환경에서 방사선 전문의의 보조 도구로서 가치 있게 활용될 가능성을 시사한다.

Diagnostic Accuracy and Clinical Value of a Domain-specific Multimodal Generative AI Model for Chest Radiograph Report Generation


전문가들도 인정한 AI: 방사선과 의사들, AI 보고서의 70.5% 그대로 수용

연구의 가장 주목할 만한 결과 중 하나는 방사선 전문의들이 AI 모델이 생성한 보고서를 상당히 높은 비율로 수용했다는 점이다. 평가에 참여한 네 명의 전문의들은 AI 모델이 생성한 보고서의 70.5%를 수정 없이 그대로 사용할 수 있다고 평가했다. 이는 실제 방사선과 의사가 작성한 보고서의 수용률(73.3%)에 근접한 결과로, GPT-4Vision과 같은 일반 목적 대규모 언어 모델(29.6%)보다 월등히 높은 수치다.

합의 점수와 품질 점수에서도 AI 모델은 방사선과 의사가 작성한 보고서와 비슷하거나 더 높은 평가를 받았다. 특히 주관적 순위 평가에서 AI 모델 보고서는 60%의 사례에서 1위로 평가되었으며, 이는 방사선과 의사(31.7%)와 GPT-4Vision(8.3%)을 크게 앞서는 결과다.

의료 AI의 승자는 ‘전문성’: 범용 AI(GPT-4Vision)보다 2배 이상 높은 정확도

이 연구는 전문 다중모달 생성형 AI 모델이 실제 임상 환경에서 흉부 X선 판독을 보조하는 데 유의미한 가치를 제공할 수 있음을 보여준다. 전 세계적으로 가장 많이 수행되는 방사선 검사 중 하나인 흉부 X선 검사의 해석을 AI가 지원함으로써, 방사선과 의사의 업무 부담을 줄이고 보고서 생성 시간을 단축하며 신속한 진단을 촉진할 가능성이 있다.

그러나 연구팀은 AI 모델이 일부 임상적으로 중요한 오류를 범하고 환각(hallucination) 현상을 보이는 등 개선의 여지가 있음을 인정했다. AI 모델이 언급하지 않은 이상 소견이나 잘못된 위치 정보, 심각도 평가 오류 등이 발견되었으며, 이는 AI 모델이 실제 임상에서 사용되기 전에 더 많은 개발과 검증이 필요함을 시사한다.

의사를 대체 아닌 보완: AI 보고서 60%가 의사 작성보다 높은 순위 평가

이 연구는 의료 분야에서 AI의 책임 있는 사용에 대한 중요한 통찰을 제공한다. 방대한 다국적 데이터셋으로 훈련된 전문 AI 모델이 일반 목적 모델보다 훨씬 우수한 성능을 보인다는 점은 의료 AI 개발에 있어 도메인 특화 학습의 중요성을 강조한다.

향후 연구에서는 더 다양한 임상 환경에서의 전향적 연구 설계, 다양한 사례 복잡성, 그리고 모델 생성 보고서의 해석 가능성과 사용성에 초점을 맞춰야 할 것이다. 또한 다양한 전문성 수준과 세부 전문 분야 훈련 경험이 있는 더 많은 방사선과 의사들이 모델 생성 보고서를 평가하는 것이 AI 모델의 일반화 가능성을 평가하는 데 도움이 될 것이다.

FAQ

Q: 생성형 AI는 어떻게 의료 영상을 해석할 수 있나요?

A: 생성형 AI는 수백만 개의 X선 영상과 이에 해당하는 전문의 보고서를 학습하여 패턴을 인식합니다. 흉부 X선에서 특정 이상 소견(예: 기흉, 종괴, 폐렴 등)을 식별하고 이를 바탕으로 방사선과 보고서를 생성할 수 있습니다. 이번 연구에서는 883만 건 이상의 X선-보고서 쌍으로 학습된 모델이 실제 방사선 전문의의 판독과 유사한 수준의 정확도를 보였습니다.

Q: AI가 방사선과 의사를 대체하게 될까요?

A: 아닙니다. 이 연구는 AI가 방사선과 의사를 대체하기보다는 보조 도구로서 가치가 있음을 보여줍니다. AI는 예비 보고서를 생성하여 방사선과 의사의 워크플로우 효율성을 높이고, 중요한 소견을 놓치지 않도록 도울 수 있습니다. 최종 진단과 치료 결정은 여전히 의료 전문가의 영역이며, AI는 이를 지원하는 역할을 합니다.

Q: 일반 목적 AI(GPT-4Vision)와 전문 AI 모델의 차이점은 무엇인가요?

A: 이 연구에서 전문(도메인 특화) AI 모델은 방사선과 보고서 작성에 특화된 데이터로 학습되었으며, GPT-4Vision보다 훨씬 우수한 성능을 보였습니다. 전문 AI 보고서의 수용률은 70.5%인 반면, GPT-4Vision은 29.6%에 불과했습니다. 이는 의료와 같은 전문 분야에서는 특정 목적에 맞게 학습된 AI가 더 효과적임을 보여줍니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: Diagnostic Accuracy and Clinical Value of a Domain-specific Multimodal Generative AI Model for Chest Radiograph Report Generation

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




883만 장의 X선으로 학습한 AI, 위험한 폐 질환도 95% 이상 감지한다 – AI 매터스