뇌 영상 인공지능(AI) 하면 보통 “MRI로 알츠하이머를 잡아낸다”는 뉴스가 떠오른다. 그런데 미국 서던캘리포니아 대학교(USC) 의대 연구진이 지난 5월 7일 공개한 논문은 다른 결론을 내놓았다. 뇌 영상 연구의 진짜 병목은 진단 모델이 아니라 그 앞단, 즉 데이터를 분석 가능한 상태로 만드는 ‘전처리’ 단계에 있었다는 것이다. 연구진이 만든 거대언어모델(LLM) 에이전트 ‘뉴로에이전트(NeuroAgent)’는 이 단계를 자연어 명령만으로 자동화했고, 알츠하이머 환자와 정상군을 합친 연구 참가자 1,470명분 데이터를 분석해 진단 정확도(AUC) 0.9518을 기록했다.
진짜 병목은 진단 모델이 아니라 전처리였다
뇌 영상 분석에서 가장 시간이 많이 드는 작업은 진단이 아니라 데이터 준비다. 구조 자기공명영상(sMRI), 기능 MRI(fMRI), 확산 MRI(dMRI), 양전자단층촬영(PET)처럼 종류가 다른 영상은 각각 다른 소프트웨어로 전처리를 거쳐야 한다. 연구실마다 즐겨 쓰는 도구가 FSL, SPM, ANTs, 프리서퍼(FreeSurfer)로 제각각이고, 파일 형식과 좌표 체계조차 통일돼 있지 않다.
신경영상 전처리 자동화(Neuroimaging Preprocessing Automation)란 이렇게 흩어져 있는 작업 흐름을 한 줄의 명령으로 묶어내는 기술을 뜻한다. 2020년 발표된 NARPS 연구는 동일한 fMRI 데이터를 70개 연구팀에 분석시켰는데, 똑같은 워크플로를 선택한 팀이 단 한 팀도 없었다. 같은 데이터에서 70가지 결과가 나온 셈이다. 논문은 “멀티모달 신경영상 분석의 가장 큰 비용은 컴퓨팅이 아니라 인간의 노동”이라고 못 박았다. 연구자 한 사람이 한 환자 분량을 손으로 전처리하는 데 며칠씩 걸리는 일이 흔한데, 이런 작업이 ADNI 연구 한 건에 수천 명분 누적되면 인건비와 시간이 진단 알고리즘 자체보다 훨씬 더 큰 비용을 차지하게 된다.
뉴로에이전트, 자연어 명령으로 작동하는 계층적 AI 에이전트
뉴로에이전트는 LLM이 직접 실행 코드를 생성하고, 오류를 만나면 스스로 고친 뒤 다시 실행하는 계층적 멀티 에이전트 시스템이다. 최상위에는 ‘중앙 오케스트레이터(Central Orchestrator)’가 자리한다. 연구자가 “알츠하이머 환자의 기능 연결성 변화를 분석해줘”라고 자연어로 요청하면, 오케스트레이터가 이 문장을 작업 의존성 그래프로 분해한 뒤 영상 종류별 전문 에이전트에게 일을 나눠 준다. 그 아래에는 구조 MRI 전담, 기능 MRI 전담, PET 전담, 확산 MRI 전담 에이전트가 각각 배치돼 있다. 사용자가 “기능 MRI 분석”만 언급해도 시스템이 알아서 구조 MRI 전처리를 먼저 끼워 넣는다. fMRI를 분석하려면 뇌의 형태 정보를 담은 구조 MRI 정합이 반드시 선행돼야 하기 때문이다.

그림1. 오케스트레이터·모달리티 에이전트·생성·실행·검증 엔진·휴먼 인 더 루프로 구성된 뉴로에이전트의 전체 구조도
핵심은 ‘생성·실행·검증(Generate-Execute-Validate)’ 엔진이다. 에이전트가 파이썬 코드를 짜고, 격리된 샌드박스 환경에서 그 코드를 실행하고, 결과 파일이 표준 규격인 BIDS(Brain Imaging Data Structure)에 맞는지 검증하는 3단계가 자동으로 돌아간다. 만약 실행 중 오류가 나면 에이전트는 오류 로그를 읽고 매개변수를 조정한 뒤 다시 시도한다. 예를 들어 영상 정합이 실패하면 검색 반경을 넓히거나 비용 함수를 바꾸는 식이다. 사람이 직접 디버깅하려고 코드를 들여다볼 필요가 사라진다. 다만 자동 복구로도 해결되지 않는 까다로운 경우에는 ‘휴먼 인 더 루프(Human-in-the-Loop)’ 인터페이스가 작동해 연구자가 직접 검토하도록 넘긴다.
알츠하이머 환자 1,470명 데이터에서 AUC 0.9518 달성
연구진은 미국 알츠하이머병 신경영상 이니셔티브(ADNI)에서 1,470명의 데이터를 모아 뉴로에이전트를 검증했다. 인지 정상군 1,000명, 알츠하이머병 환자 470명이 포함됐다. 전원에게 구조 MRI와 임상 표 데이터가 있었고, 부분 집합에 한해 타우 PET(469명), 기능 MRI(278명), 확산 텐서 영상(DTI, 620명)이 추가로 갖춰져 있었다.
뉴로에이전트가 자동 전처리한 4가지 데이터(구조 MRI, 타우 PET, 기능 MRI, 임상 표 데이터)를 모두 합쳐 알츠하이머 분류기를 학습시키자, 진단 정확도를 나타내는 AUC 값이 0.9518에 도달했다. AUC는 0과 1 사이의 값으로, 1에 가까울수록 환자와 정상인을 잘 구분한다는 뜻이다. 단일 영상만 쓴 비교 모델과 견주면 차이가 더 두드러진다. 구조 MRI 하나만 썼을 때 AUC가 0.8624, 타우 PET 하나만 썼을 때 0.9092였는데, 둘을 합치면 0.9117, 4종을 모두 합치면 0.9518까지 올라갔다. 0.04~0.05 정도의 수치 차이가 작아 보일 수 있지만, 임상 시험에서는 위양성과 위음성 환자가 수십 명 단위로 줄어드는 차이로 이어진다. 멀티모달 자동화 파이프라인이 단순한 편의 도구를 넘어 진단 성능 자체를 끌어올린다는 점이 데이터로 입증된 셈이다.
100%부터 0%까지, LLM 크기가 가른 성패
가장 흥미로운 부분은 어떤 LLM을 백엔드로 쓰느냐에 따라 결과가 극단으로 갈렸다는 점이다. 연구진은 알리바바의 큐원3.5(Qwen3.5)와 큐원3(Qwen3) 시리즈, 지피티 오에스에스(GPT-OSS), 지엘엠 4.7 플래시(GLM-4.7-flash) 등 12개의 오픈소스 모델을 모두 로컬 환경에서 돌려 비교했다. 결과는 충격적이었다. 가장 큰 큐원3.5-27B는 자연어 의도 파싱 정확도 100%, 전처리 코드 생성 정확도 84.8%를 기록한 반면, 같은 회사의 큐원3-14B와 큐원3-8B는 의도 파싱에서 0%, 즉 100% 잘못된 출력을 만들어냈다. 더 작은 큐원3.5-0.8B는 전처리 코드 생성 정확도가 3.0%에 그쳤고, 큐원3-1.7B는 0%였다.
“모델이 크면 클수록 잘한다”는 통념과는 다른 결과다. 같은 시리즈 안에서도 어떤 크기의 모델은 구조화된 JSON 출력을 전혀 만들지 못했고, 4B 크기의 모델이 14B보다 잘하는 역전 현상도 나타났다. 의료 영상 자동화 시스템을 도입하려는 연구실이 “큰 모델만 쓰면 된다”는 단순한 가정에 기대면 위험할 수 있다는 뜻이다. 이 차이가 매일 수백 명의 환자 데이터에 누적되면, 어떤 모델을 백엔드로 골랐느냐에 따라 연구 결과의 신뢰도 자체가 갈리게 된다.
자동화 끝에 남은 인간의 자리
뉴로에이전트의 성과는 분명하지만 한계도 또렷하다. 환자 1명의 전처리에 모달리티에 따라 4시간에서 8시간이 걸리고, 가장 좋은 백엔드 모델조차 전처리 코드를 처음부터 끝까지 오류 없이 짜내는 비율이 84.8%에 머문다. 여러 종류의 영상을 하나의 분석으로 통합하는 데이터 통합 단계에서는 가장 잘하는 모델조차 50%만 성공했다. 나머지는 휴먼 인 더 루프 인터페이스를 통해 연구자가 개입해야 한다는 의미다. ADNI는 상대적으로 표준화된 연구용 데이터셋이라는 점도 짚어둘 필요가 있다. 실제 일선 병원에서 들어오는 영상은 기기, 촬영 프로토콜, 환자 자세가 제각각이라 동일한 성능이 나올지 별도 검증이 필요하다고 연구진도 직접 인정했다.
뉴로에이전트의 그림은 AI가 연구자를 대체하는 미래가 아니라, 반복 작업의 부담을 덜고 사람은 판단이 필요한 지점에 집중하도록 돕는 분업에 가깝다. 어떤 LLM을 어떤 크기로 어떻게 검증할 것인지, 자동화 결과를 어디까지 신뢰할 것인지는 여전히 사람이 결정해야 할 영역으로 남는다. 의료 영상처럼 결과 한 줄이 환자의 진단과 치료로 이어지는 분야에서는, 자동화가 진척될수록 오히려 검증 책임자의 역할이 더 무거워질 가능성이 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 뉴로에이전트를 일반 병원에서 바로 사용할 수 있나요?
아직 연구용 시스템입니다. 검증된 ADNI 데이터셋에서만 시험된 단계라, 잡음이 많은 실제 임상 영상에서도 같은 성능이 나올지는 별도 검증이 필요합니다. 또한 환자 한 사람의 전처리에 4~8시간이 걸리기 때문에 즉각적인 임상 진단보다는 연구 자동화 도구로 적합합니다.
Q2. 일반인이 자기 뇌 MRI를 뉴로에이전트로 분석할 수 있나요?
일반 소비자용 도구는 아닙니다. 뉴로에이전트는 신경영상 연구자가 사용하는 분석 파이프라인을 자동화하는 시스템이며, 구조 MRI, 기능 MRI, PET 등 다양한 영상과 표준 처리 소프트웨어(프리서퍼, FSL 등)가 갖춰진 연구 환경에서 작동합니다.
Q3. LLM이 의료 데이터를 자동으로 처리하면 안전한가요?
연구진은 모든 코드 실행을 격리된 샌드박스에서 진행하고, 오류 감지와 자체 수정, 사람이 최종 검토하는 휴먼 인 더 루프 단계를 두는 방식으로 안전 장치를 마련했습니다. 다만 이 연구는 데이터 처리 자동화에 초점을 둔 것이며 환자 진단 자체를 LLM에 위임하는 시스템은 아닙니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: NeuroAgent: LLM Agents for Multimodal Neuroimaging Analysis and Research
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






