Generative models improve fairness of medical classifiers under distribution shifts
의료 분야에서 인공지능(AI) 모델의 활용이 늘어나고 있지만, 데이터 불균형 문제로 인해 특정 집단에 대한 진단 정확도가 낮아지는 문제가 지속되어 왔다. 최근 구글 딥마인드(Google DeepMind) 연구진이 생성형 AI 모델을 활용해 이 문제를 해결할 수 있는 방법을 제시했다. 네이처 메디슨(Nature Medicine)에 게재된 이 연구는 의료 AI의 공정성과 강건성을 크게 향상시킬 수 있는 가능성을 보여주었다.
연구진은 확산 모델(diffusion model)을 사용해 의료 이미지 데이터를 자동으로 생성하고, 이를 통해 훈련 데이터셋의 부족한 부분을 보완하는 방식을 제안했다. 이 방법을 통해 데이터가 부족한 집단이나 희귀 질환에 대한 진단 정확도를 높일 수 있다는 것이 연구의 핵심이다. 확산 모델은 최근 이미지 생성 분야에서 뛰어난 성능을 보이고 있는 생성형 AI 기술이다.
연구팀은 병리학, 흉부 X-레이, 피부과 이미지 등 세 가지 의료 영상 분야에서 실험을 진행했다. 각 분야마다 난이도와 복잡성이 다른 데이터셋을 사용하여 방법의 일반화 가능성을 검증했다. 그 결과 실제 샘플과 합성 샘플을 결합하여 학습한 AI 모델이 모든 분야에서 더 강건하고 공정한 성능을 보였다. 특히 분포 외(out-of-distribution) 데이터셋에서 과소 대표된 집단에 대한 임상 진단 정확도가 크게 향상되었다.
병리학 분야에서는 CAMELYON17 데이터셋을 사용했다. 이 데이터셋은 다섯 개의 서로 다른 병원에서 수집한 림프절 조직 이미지로 구성되어 있으며, 유방암 전이 여부를 판단하는 것이 목표다. 연구진은 확산 모델을 사용해 생성한 합성 이미지를 실제 이미지와 50:50 비율로 섞어 학습에 사용했다. 그 결과 기존 모델 대비 48.5%의 상대적 성능 향상을 달성했으며, 병원 간 성능 격차도 30% 포인트 감소했다.
흉부 X-레이 분야에서는 CheXpert와 ChestX-ray14 데이터셋을 사용했다. 연구팀은 다섯 가지 흉부 질환(무기폐, 심장비대, 폐 경화, 흉수, 폐부종)에 대한 진단 정확도를 평가했다. 흥미롭게도 이 분야에서는 100% 합성 이미지만으로 학습한 모델이 가장 좋은 성능을 보였다. 특히 심장비대(cardiomegaly) 진단의 AUC(Area Under the Curve) 수치가 21.1% 개선되었다. 또한 성별 간 공정성 격차가 44.6% 감소했고, 인종 간 공정성 격차도 31.7% 줄어들었다.
피부과 영역에서는 세 개의 서로 다른 데이터셋(미국, 호주, 콜롬비아에서 수집)을 사용했다. 27개의 피부 질환을 진단하는 것이 목표였으며, 그 중 3개는 고위험 질환(기저세포암, 흑색종, 편평세포암)으로 분류되었다. 연구진은 실제 이미지와 합성 이미지를 75:25 비율로 섞어 학습에 사용했다. 그 결과 고위험 질환에 대한 민감도가 기존 모델 대비 27.3% 향상되었고, 성별 간 공정성 격차는 7.5배 감소했다.
연구진은 “생성 모델이 데이터의 근본적인 분포를 자동으로 학습해 현실적인 증강을 만들어낼 수 있다”며 “이는 레이블 효율적인 방식으로 이루어진다”고 설명했다. 즉, 적은 수의 레이블된 데이터만으로도 효과적인 데이터 증강이 가능하다는 것이다. 이는 특히 희귀 질환이나 소수 집단의 데이터를 확보하기 어려운 의료 분야에서 큰 의미를 갖는다.
또한 연구팀은 생성된 이미지의 품질과 다양성을 평가하기 위해 전문 피부과 의사들에게 합성 이미지를 진단하도록 요청했다. 그 결과 합성 이미지의 50%가 진단 가능한 품질이었으며, 의사들의 진단 정확도는 실제 이미지를 진단할 때와 비슷한 수준이었다. 이는 생성된 이미지가 실제 의료 데이터의 특성을 잘 반영하고 있음을 보여준다.
다만 연구팀은 이 방법이 추가적인 데이터 수집을 대체할 수는 없다고 강조했다. 대신 제한된 리소스 내에서 가용한 레이블링된 데이터와 레이블링되지 않은 데이터를 최대한 활용할 수 있는 방법이라고 설명했다. 또한 합성 데이터 사용에 따른 잠재적 위험성도 언급했다. 생성 모델의 품질이 낮거나 편향되어 있다면 오히려 문제를 악화시킬 수 있다는 것이다. 따라서 실제 데이터를 사용한 엄격한 평가가 항상 동반되어야 한다고 강조했다.
이 연구 결과는 의료 AI 분야에서 데이터 불균형으로 인한 편향 문제를 해결하는 데 중요한 기여를 할 것으로 보인다. 특히 희귀 질환이나 소수 집단에 대한 진단 정확도를 높이는 데 도움이 될 것으로 기대된다. 또한 이 방법은 의료 데이터의 프라이버시 보호 기술과 결합될 경우, 데이터 공유의 어려움을 극복하는 데도 도움이 될 수 있다.
향후 연구 과제로는 생성 모델의 품질을 더욱 개선하고, 다양한 의료 분야로 적용 범위를 확대하는 것이 제시되었다. 또한 생성된 데이터의 윤리적 사용과 관련된 가이드라인 수립의 필요성도 언급되었다.
구글 딥마인드의 연구 결과는 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기