AI가 처음으로 기상 예보 파이프라인 전체를 사람의 개입 없이 자동으로 돌렸다. 원시 기상 관측 데이터를 받아 기온, 풍속, 습도 예보를 직접 출력하는 과정 전체를 AI 혼자 처리한 것이다. 과학 논문에서 AI 관련 비중은 1년 만에 최대 28%까지 늘어났다. 그런데 리포트는 같은 페이지에서 전혀 다른 데이터를 보여준다. 500건 이상의 임상 AI 연구를 검토한 결과 그 절반이 실제 환자 데이터를 사용하지 않은 것으로 나타났다. 스탠퍼드 대학교 인간중심AI연구소(HAI)가 2026년 4월 발표한 「AI 인덱스 리포트 2026(AI Index Report 2026)」 과학·의학 챕터는 AI가 과학에 가져온 성과와 한계를 동시에 기록한다.

논문 26~28% 증가, AI가 과학을 재편하고 있다
2024년을 기준으로 자연과학 분야 AI 관련 논문은 약 80,150편으로 전년 63,547편에서 26% 증가했다. 물리학과 생명과학은 각각 27~28%씩 늘었고, 지구과학도 23%의 증가율을 기록했다. 이것이 어떤 의미인지 감을 잡으려면 다른 기술 분야와 비교해보면 된다. 대부분의 기술 분야에서 연간 논문 증가율은 한 자릿수에 머문다. 20%를 훌쩍 넘는 증가율은 AI가 단순히 과학의 도구를 넘어, 연구 자체의 방법론을 바꾸고 있다는 신호다.
천문학 등 과학 분야에서도 대규모 데이터 기반 모델 개발이 활발히 진행되고 있다. 모델은 전 세계 10개 망원경에서 이뤄지는 천체 관측 작업을 자동화한다. 각 망원경이 수집한 데이터를 사람이 일일이 분석하던 과정을 AI가 대신하기 시작한 것이다. 지구에서 가장 멀리 떨어진 천체를 탐색하는 일이 이제는 AI가 주도하는 과학 실험의 형태로 전환되고 있다.
기상 예보 분야의 변화는 더욱 구체적이다. 2025년에는 AI가 기상 예보 파이프라인 전체를 최초로 완전 자동화했다. 원시 기상 관측 데이터 수집부터 기온, 풍속, 습도를 포함한 최종 예보 출력까지 사람의 개입 없이 AI가 처리했다. 이는 기존의 예보관 중심 체계에서 벗어나려는 중요한 변화 신호로 해석된다.
의료 AI의 반전, 실험실 성과와 병원 현실의 간극
과학 분야에서 AI의 성과가 눈부신 것과 달리, 의료 분야는 더 복잡한 그림을 보여준다. 리포트는 다수의 임상 AI 연구를 검토한 결과 상당수가 실제 환자 데이터를 사용하지 않았다는 사실을 밝힌다. 컴퓨터 시뮬레이션이나 합성 데이터(Synthetic Data, 실제 데이터를 모방해 인공적으로 생성한 데이터)를 기반으로 한 연구가 상당 비중을 차지하고 있다는 것이다.
이것이 문제가 되는 이유는 분명하다. 실험실 조건에서 탁월하게 작동하는 AI 모델이 실제 병원에 배포됐을 때 예상과 다른 결과를 내는 경우가 빈번하다. 실제 환자 데이터에는 불완전한 기록, 표준화되지 않은 입력 방식, 인구 집단별 편차 등 수많은 현실의 불확실성이 담겨 있다. 이 불확실성을 경험하지 못한 AI 모델은 병원이라는 실제 환경에서 취약해진다.
긍정적인 측면도 있다. AI는 복잡한 의료 정보를 환자가 이해할 수 있는 언어로 요약하는 데 효과를 보이고 있다. 자신의 진단명과 치료 계획을 이해하지 못하는 환자들에게 AI가 맞춤형 설명을 제공하거나, 의사에게는 환자와의 소통 전략을 제안하는 방식이다. 치료 기술 자체를 대체하는 것이 아니라, 의사와 환자 사이의 정보 격차를 줄이는 역할에서 의료 AI의 현실적 기여가 이뤄지고 있다.
성과와 한계 사이에서, AI 과학의 현주소
기상 예보 자동화와 천문학 파운데이션 모델은 AI가 과학 인프라 자체를 바꾸고 있다는 증거다. AI 연구는 다양한 과학 분야에서 빠르게 확산되고 있으며 전체 연구 비중도 확대되고 있다. 이미 과학자들은 AI 없이 할 수 없는 연구를 하고 있다.
반면 임상 연구의 상당수가 실제 환자 데이터 없이 진행됐다는 사실은 과학적 성과와 실제 의료 현장 사이의 간극이 여전하다는 점을 상기시킨다. AI 모델의 벤치마크 성능이 아무리 뛰어나도, 그것이 실제 환자에게 닿기 위해서는 현실 데이터와 임상 검증이라는 높은 문턱을 넘어야 한다. 연구실의 AI와 병원의 AI 사이에는 아직 메워야 할 거리가 남아 있다.
AI가 과학을 어떻게 바꾸는지 이해하고 싶다면, 성과 지표만 보아서는 안 된다. 어떤 종류의 데이터로 무엇을 증명했는지, 그 결과가 실제 삶과 얼마나 가까운지를 함께 봐야 한다. 리포트가 성과와 한계를 나란히 기록한 것은 그 이유에서다.
편집자주
스탠퍼드 대학교 인간중심AI연구소(HAI)가 매년 발행하는 「AI 인덱스 리포트(AI Index Report)」는 AI 기술 성능부터 경제·노동·교육·정책·여론까지 400페이지 이상의 데이터로 AI의 현재를 기록하는 연간 보고서다. 2026년판은 9번째 에디션으로, 단일 기사로 소화하기에는 챕터별 인사이트가 너무 방대하고 독자층도 다르다. 기술 성능에 관심 있는 개발자와 고용 충격이 궁금한 취업 준비생이 같은 기사를 읽을 필요는 없다. AI 매터스는 이 리포트를 챕터별로 나눠 총 6편의 시리즈로 연재한다. ① 기술 성능 ② 경제·노동 ③ 책임 AI ④ 연구개발·인프라 ⑤ 과학·의학 ⑥ 교육·여론·정책 순으로 발행하며, 각 편은 독립적으로 읽을 수 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. AI 기상 예보 자동화는 기존 기상 예보와 무엇이 다른가요?
기존 기상 예보는 수집된 기상 데이터를 전문 예보관이 분석하고 판단하는 과정을 포함합니다. 2026년 처음으로 AI가 원시 기상 관측 데이터 수집부터 기온, 풍속, 습도 예보 출력까지 전 과정을 사람의 개입 없이 처리하는 데 성공했습니다. 예보의 속도와 일관성이 높아질 수 있지만, AI 예보 시스템의 신뢰성과 이상 기상 상황에서의 정확도는 지속적인 검증이 필요합니다.
Q. 파운데이션 모델(Foundation Model)이란 무엇인가요?
파운데이션 모델이란 대규모 데이터로 사전 학습된 범용 AI 기반 모델로, 다양한 분야에 맞게 추가 학습 없이 또는 최소한의 학습만으로 활용할 수 있습니다. 챗GPT(ChatGPT)나 클로드(Claude)가 대표적입니다. 이러한 모델은 대규모 관측 데이터를 자동으로 분석하는 방향으로 발전하고 있습니다.
Q. 의료 AI가 실제 병원에서 잘 작동하지 않는 이유는 무엇인가요?
많은 의료 AI 연구가 실제 환자 데이터가 아닌 시뮬레이션이나 합성 데이터로 학습돼 있어, 실제 병원 환경의 불완전한 기록이나 환자 간 다양한 차이에 적응하지 못하는 경우가 발생합니다. 실험실 조건에서 높은 성능을 기록해도 현실의 복잡성 앞에서는 한계를 드러낼 수 있습니다. 실제 환자 데이터 기반 임상 검증이 의료 AI의 실제 도입을 위한 핵심 과제입니다.
기사에 인용된 리포트 원문은 Stanford HAI에서 확인할 수 있다.
리포트명: 2026 AI Index Report
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






