Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs
– A Multinational Study
6,669개의 파노라마 방사선 사진으로 입증된 AI 진단 성능
국립대만대학교 의과대학과 MIT 등 다국적 연구팀이 발표한 연구 논문에 따르면, 인공지능(AI) 시스템이 치과 파노라마 방사선 사진을 판독하는데 있어 인간 치과의사와 비슷하거나 더 우수한 성능을 보여주었다. 연구팀은 네덜란드, 브라질, 대만 등 3개국에서 수집한 6,669개의 치과 파노라마 방사선 사진을 분석했다. 전체 데이터셋에는 총 84,000개의 치아 자리가 포함되었으며, 이 중 네덜란드 데이터 4,044건은 AI 학습용으로, 나머지 2,625건은 검증용으로 활용되었다.
8개 진단 항목에서 96.2% 정확도 달성한 AI
AI 시스템은 각 치과 소견별로 주목할 만한 성능을 보여주었다. 충전의 경우 전체의 20.15%(16,926건), 치아 결손 17.36%(14,581건), 치관/브릿지 7.49%(6,288건), 신경치료 4.56%(3,832건), 충치 3.36%(2,822건), 임플란트 1.67%(1,405건), 치근단 방사선 투과성 1.23%(1,035건), 잔존 치근 0.51%(427건)의 비율로 발견되었다. 특히 임플란트 탐지에서는 97.6%의 민감도와 99.2%의 정확도를 기록했으며, 신경치료의 경우 99.4%의 최고 정확도를 달성했다.
객체 탐지와 의미론적 분할 결합한 혁신적 AI 시스템 구조
이번 연구에서 개발된 AI 시스템은 객체 탐지(Object Detection)와 의미론적 분할(Semantic Segmentation) 기술을 결합한 혁신적인 구조를 채택했다. 딥러닝 기반의 AI 시스템은 치과 파노라마 방사선 사진만을 입력값으로 받아 판독을 수행한다. 객체 탐지 모델은 영상 내 치과 소견들의 위치를 파악하고, 의미론적 분할 모델은 각 치아의 번호를 분류한다.
이후 확률적 알고리즘을 통해 두 정보를 통합하여 최종적으로 32개 치아에 대해 8가지 소견을 각각 평가한다. 이를 통해 한 장의 방사선 사진당 총 256개의 세부 평가 결과를 도출한다. 특히 치아 번호 분류에는 국제치과연맹(FDI) 표기법을 사용해 전 세계 치과 의료진들이 보편적으로 활용할 수 있도록 했다.
1.55초 만에 완료하는 3단계 AI 분석 시스템
AI 시스템의 분석 과정은 객체 탐지, 치아 인덱스 분류, 후처리의 세 단계로 구성된다. 첫 단계인 소견 감지에 0.28초(95% CI: 0.27-0.28초), 치아 인덱스 분류에 0.20초(95% CI: 0.19-0.20초), 후처리에 1.08초(95% CI: 1.05-1.11초)가 소요된다. 반면 인간 치과의사는 평균 122초(95% CI: 118-126초)가 소요되어, AI가 79배 더 빠른 처리 속도를 보여주었다.
치근단 방사선 투과성 진단에서 67.9% 우수한 성능
AI는 특히 치근단 방사선 투과성 진단에서 인간 평균보다 67.9%(95% CI: 54.0%-81.9%) 높은 민감도를 보였다. 치아 결손 식별에서도 4.7%(95% CI: 1.4%-8.0%) 더 높은 민감도를 기록했다. 이러한 우수성은 통계적으로 유의미한 수준이었다(p < .001).
3개국 데이터에서 입증된 AI의 일관된 성능
네덜란드에서 학습된 AI는 브라질과 대만의 상이한 임상 환경에서도 안정적인 성능을 보였다. 예를 들어 대만의 경우 제3대구치 발치율이 8.6%로 높아 치아 결손(22.65%)과 잔존 치근(1.11%)의 비율이 타 국가보다 높았으나, AI는 이러한 차이에도 불구하고 일관된 진단 능력을 유지했다.

전문의 경력별 비교: AI vs 2-15년차 치과의사
연구에 참여한 치과의사들은 2-3년 경력의 일반의 2명과 11년(치주/교정 전문의), 15년(근관치료 전문의) 경력의 전문의 2명으로 구성되었다. AI는 치관/브릿지(95.4%, 95% CI: 92.9%-97.8%), 임플란트(92.3%, 95% CI: 83.0%-100.0%), 신경치료(92.1%, 95% CI: 86.8%-97.4%) 등에서 전문의급의 성능을 보였다. 다만 충치 진단의 일치도는 46.5%(95% CI: 34.8%-58.1%)로 가장 낮았다.
실제 임상 환경 검증과 충치 진단 개선 필요
연구팀은 AI 시스템의 실제 임상 적용을 위해서는 추가적인 검증이 필요하다고 지적했다. 특히 충치 진단 능력 향상과 고품질 학습 데이터 확보가 시급한 과제로 나타났다. 또한 다양한 치과 전문분야의 의견을 반영하고 국제적인 임상 환경에서의 추가 검증이 필요한 것으로 분석되었다.
해당 기사에 인용된 논문 원문은 링크에서 확인 가능하다.
기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기