"1% 데이터로 100% 성능 넘었다"… 심장 초음파 읽는 AI의 비밀

심장 초음파 검사는 심장 질환을 찾는 가장 기본적인 검사로, 미국에서만 1년에 3천만 건 이상 시행된다. 하지만 초음파 영상은 화질이 좋지 않다는 게 문제다. 화면 곳곳에 반짝이는 점들이 나타나고 그림자가 지며, 깊이에 따라 밝기가 달라지는데, 이런 현상들은 심장의 실제 모습과는 관계없는 ‘노이즈’일 뿐이다.

그동안 AI가 초음파 영상을 배울 때 이 노이즈가 큰 장애물이었는데, 캐나다 토론토대학교(University of Toronto)와 미국 시카고대학교(University of Chicago) 연구팀이 이 문제를 해결한 새로운 AI를 개발했다. 해당 논문에 따르면, ‘에코제파(EchoJEPA)’라는 이름의 이 AI는 노이즈를 무시하고 심장의 진짜 모습만 배우는 방식으로 기존 AI들을 크게 앞질렀다.

1,800만 개 영상으로 배운 사상 최대 심장 초음파 AI

에코제파는 심장 초음파 검사를 위해 만들어진 ‘기초 AI 모델’이다. 기초 AI 모델이란 엄청나게 많은 데이터로 미리 공부해서 여러 가지 일에 쓸 수 있는 범용 AI를 말하는데, 챗GPT가 글과 대화를 위한 기초 모델이라면 에코제파는 심장 초음파 영상을 위한 기초 모델인 셈이다.

연구팀은 30만 명 환자의 심장 초음파 동영상 1,800만 개로 에코제파를 가르쳤다. 이는 심장 초음파 분야에서 지금까지 사용된 데이터 중 가장 많은 양으로, 기존 AI인 에코프라임이 1,200만 개, 팬에코가 100만 개 넘는 영상으로 공부한 것과 비교하면 그 규모를 짐작할 수 있다.

에코제파는 두 가지 중요한 검사에서 최고 성적을 냈다. 첫째는 ‘좌심실 박출률’ 측정으로, 이는 심장이 한 번 뛸 때 좌심실에서 나가는 피의 비율을 나타내며 심장이 얼마나 잘 일하는지 보여주는 가장 중요한 수치다. 둘째는 ‘우심실 수축기압’ 측정인데, 이는 우심실이 수축할 때의 압력으로 폐에 문제가 있을 때 높아진다. 에코제파는 토론토 병원 데이터에서 좌심실 박출률 측정 오차를 4.26%로 낮췄는데, 이는 차순위 AI인 에코프라임의 5.33%보다 20% 더 정확한 수치다.

픽셀 하나하나 복원 대신 ‘의미’ 이해하는 방식 택해

에코제파의 핵심은 ‘의미 추론’ 방식에 있다. 기존 많은 AI들이 사용한 ‘픽셀 복원’ 방식은 사진의 일부를 가린 뒤 그 부분의 점(픽셀)들을 정확히 그려내도록 공부시키는 방식인데, 문제는 이 방식이 초음파의 무작위 노이즈까지 그대로 따라 그리려 한다는 점이다. 초음파를 찍을 때마다 달라지는 반짝이는 점들을 AI가 중요한 정보로 착각하고 외우게 되는 것이다.

반면 ‘의미 추론’ 방식은 픽셀을 직접 그려내는 대신, 가려진 부분이 ‘무엇을 의미하는지’ 알아맞히도록 공부시킨다. 구체적으로 말하면 AI는 보이는 부분에서 찾은 특징을 바탕으로 가려진 부분의 특징을 예측하는데, 이때 정답은 천천히 변하는 ‘선생님 AI’가 제공한다. 이 과정에서 시간이 지나도 변하지 않는 안정적인 것들, 즉 심장의 방 모양이나 벽이 움직이는 패턴 같은 진짜 정보는 강해지고, 매번 달라지는 반짝이는 점들은 자연스럽게 무시되는 효과가 나타난다.

연구팀은 이를 증명하기 위해 똑같은 조건에서 두 방식을 비교하는 실험을 진행했다. 같은 구조의 AI를 같은 데이터로 공부시키되 공부 방식만 다르게 한 것인데, 결과는 명확했다. 의미 추론 방식의 에코제파-L은 좌심실 박출률 측정 오차가 5.97%였지만, 픽셀 복원 방식의 에코MAE-L은 8.15%로 26.7%나 더 틀렸다. 심장 초음파 종류를 구분하는 정확도는 차이가 더 컸는데, 에코제파-L이 85.5% 맞힌 반면 에코MAE-L은 40.4%만 맞혀서 의미 추론 방식이 45.1% 더 우수한 성능을 보였다.

정답 표시된 데이터 1%만 있어도 100% 배운 AI 이겨

에코제파의 또 다른 장점은 적은 데이터로도 잘 배운다는 점이다. 의료 AI를 만들 때 가장 어려운 점은 전문가가 직접 정답을 표시해야 한다는 것인데, 심장 초음파 영상에 ‘이건 좌심실이다’, ‘박출률은 60%다’라고 표시하려면 심장 전문의의 시간이 필요하기 때문이다. 에코제파는 이 문제를 극적으로 해결했다.

연구팀이 심장 초음파 종류를 구분하는 과제에서 정답이 표시된 데이터를 1%만 썼을 때, 에코제파-G는 78.6%를 맞혔다. 이는 100% 정답 데이터로 공부한 에코프라임의 42.1%보다 거의 2배 높은 수치로, 에코제파는 정답 데이터가 100분의 1만 있어도 기존 AI가 모든 정답 데이터로 공부한 것보다 나은 성적을 낸 셈이다. 공개 데이터로만 배운 에코제파-L도 1% 정답 데이터로 57.6%를 맞혔다는 점에서 이 효과가 일관되게 나타남을 알 수 있다.

이는 의미 추론 방식이 영상의 핵심 구조를 집중적으로 배웠음을 보여준다. 연구팀이 AI 내부의 이해 방식을 그림으로 그렸을 때, 에코제파는 서로 다른 초음파 촬영 각도를 명확하게 구분하고 있었다. 예를 들어 가슴을 통해 찍은 초음파와 식도를 통해 찍은 초음파를 별도로 분류했는데, 이는 AI가 촬영 방식의 근본적 차이를 이해했다는 뜻이다. 반면 기존 AI들은 이런 구분 없이 뒤섞인 형태로 나타났다.

화질 나빠도 성능 유지… 비만·폐질환 환자에게 유용

실제 병원에서는 깨끗한 영상보다 화질이 떨어지는 영상을 더 자주 보게 된다. 비만 환자나 폐 질환 환자는 초음파가 몸속 깊이 들어가기 어려워 영상이 어둡게 나오고, 갈비뼈나 딱딱해진 조직에 가려 그림자가 생기기도 하는데, AI가 실제 병원에서 쓸모 있으려면 이런 나쁜 환경에서도 성능을 유지해야 한다.

연구팀은 실제와 비슷한 방해 요소를 영상에 추가해 AI의 견고함을 시험했다. 깊이에 따라 밝기가 줄어드는 현상과 둥근 모양의 그림자를 만들어 넣은 것인데, 결과는 인상적이었다. 에코제파-G는 방해가 심해져도 성능이 평균 2.3%만 떨어진 반면, 에코프라임은 16.8% 떨어져서 에코제파보다 86% 더 약한 모습을 보였다. 픽셀 복원 방식의 에코MAE-L은 0.5%만 떨어졌지만, 이는 원래 성능이 너무 낮아서 더 나빠질 여지가 없었기 때문이다.

이 결과는 에코제파가 촬영 환경에 따라 변하는 겉모습이 아니라 변하지 않는 심장 구조에 집중했음을 보여준다. 연구팀이 AI가 영상의 어디를 보는지 확인했을 때도 이를 알 수 있었는데, 픽셀 복원 방식의 비디오MAE는 영상 가장자리나 색깔 강도 같은 관계없는 부분을 본 반면, 에코제파는 심장 판막, 심실 벽, 판막이 붙은 테두리 같은 진짜 구조에 정확히 초점을 맞췄다. 더 흥미로운 점은 심장이 뛰는 주기에 따라 초점이 판막에서 심실 벽으로 옮겨가는 등 심장을 하나의 살아있는 시스템으로 이해하는 모습을 보였다는 것이다.

어른 심장만 배웠는데 아이 심장도 정확히 진단

의료 AI의 중요한 과제 중 하나는 배우지 않은 환자에게도 잘 작동하는지 확인하는 것이다. 아이 심장 초음파는 어른과 많이 다른데, 심장 크기가 작고 방의 비율이 다르며 걸리는 병도 다르기 때문이다. 연구팀은 어른 데이터만으로 공부한 에코제파가 아이 환자 데이터에서 어떤 성적을 보이는지 시험했다.

결과는 놀라웠다. 아이 데이터를 전혀 보지 않은 에코제파-G가 추가 공부 없이 바로 시험을 봤을 때 좌심실 박출률 측정 오차가 4.32%였는데, 이는 아이 데이터로 추가 공부한 에코프라임의 4.53%보다 낮은 수치다. 즉, 에코제파는 아이 데이터를 한 번도 안 봤는데도 아이 데이터로 공부한 AI보다 나은 성적을 낸 것이다. 아이 데이터로 추가 공부하면 성적은 더 좋아져 3.88% 오차로 새로운 최고 기록을 세웠다.

흥미로운 점은 픽셀 복원 방식의 에코MAE-L은 추가 공부를 해도 성적이 거의 안 올랐다는 것이다. 반면 에코제파-L은 추가 공부로 크게 좋아졌는데, 이는 의미 추론 방식이 더 넓게 쓸 수 있고 다른 상황에도 적용되는 이해 방식을 배웠음을 보여준다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 에코제파가 기존 심장 초음파 AI와 다른 점은 무엇입니까?

A. 에코제파는 초음파 영상의 점(픽셀)을 하나하나 복원하는 대신 영상이 무엇을 의미하는지 이해하도록 학습합니다. 이를 통해 초음파 특유의 반짝이는 노이즈를 무시하고 심장의 실제 구조만 배울 수 있으며, 결과적으로 같은 데이터로 학습해도 기존 방식보다 26.7% 더 정확하고 화질이 나쁜 환경에서도 86% 더 안정적인 성능을 유지합니다.

Q2. 왜 의료 AI 개발에서 적은 데이터로 배우는 능력이 중요합니까?

A. 의료 AI를 학습시키려면 전문의가 직접 영상에 정답을 표시해야 하는데, 이는 시간과 비용이 많이 듭니다. 에코제파는 정답이 표시된 데이터가 1%만 있어도 기존 AI가 100% 데이터로 학습한 것보다 나은 성능을 보여, 의료 AI 개발에서 가장 큰 장애물인 레이블 데이터 부족 문제를 해결했습니다.

Q3. 이 기술이 실제 병원에서 어떻게 활용될 수 있습니까?

A. 에코제파는 심장 초음파 영상의 자동 분석과 진단을 도울 수 있습니다. 특히 비만이나 폐 질환으로 영상 화질이 나쁜 환자, 그리고 전문의 접근이 어려운 지역에서 유용하며, 아이 환자 같은 다른 환자군에도 추가 학습 없이 바로 적용할 수 있어 활용 범위가 넓습니다. 다만 연구팀은 실제 병원에 배치하기 전 충분한 검증이 필요하다고 강조했습니다.

기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.

논문명: EchoJEPA: A Latent Predictive Foundation Model for Echocardiography

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.