HealthBench: Evaluating Large Language Models Towards Improved Human Health
전 세계 60개국 262명 의사 참여, 5,000개 실제 의료 대화로 AI 성능 평가
오픈AI가 의료 분야에서 대형 언어 모델(LLM)의 성능과 안전성을 평가하기 위한 오픈소스 벤치마크인 ‘헬스벤치(HealthBench)’를 공개했다. 전 세계 60개국에서 활동하는 262명의 의사들이 참여하여 개발된 이 평가 도구는 의료 AI 기술의 실질적인 발전을 측정하고 표준화하기 위한 중요한 이정표로 평가받고 있다. 헬스벤치는 기존의 단순한 객관식 시험이나 짧은 질문 형태의 평가와 달리, 5,000개의 실제적이고 다양한 의료 대화를 포함하고 있다. 각 대화는 개인 사용자 또는 의료 전문가와 AI 모델 간의 상호작용을 반영하며, AI가 마지막 사용자 메시지에 얼마나 적절하게 응답하는지를 평가한다.
헬스벤치의 가장 큰 특징은 의사들이 직접 작성한 대화별 평가 기준(루브릭)을 통해 모델의 응답을 평가한다는 점이다. 이 평가 기준은 총 48,562개의 고유한 항목으로 구성되어 있으며, 대화 맥락에 따라 응답에 포함되어야 할 구체적인 내용(예: 특정 약물과 복용량), 정보 제공 방식, 흔한 오해 등을 포함한다. 특히 주목할 만한 점은 의사들이 각 기준의 상대적 중요도에 따라 가중치를 부여했다는 것이다. 이를 통해 AI 모델의 응답이 단순히 정보를 나열하는 데 그치지 않고, 의학적으로 정확하고 환자에게 실질적으로 도움이 되는지를 종합적으로 평가할 수 있게 되었다.

오픈AI의 o3 모델 60% 득점으로 최고 성능, 그록 3과 제미니 2.5 프로 추격
헬스벤치는 의료 관련 대화를 7가지 주제별로 분류하여 평가한다. 응급 상황 의뢰, 글로벌 의료 환경, 전문성에 맞춘 의사소통, 불확실성 속 대응, 맥락 파악, 의료 데이터 작업, 응답 깊이 등이 포함된다. 또한 정확성, 완전성, 의사소통 품질, 맥락 인식, 지침 준수와 같은 5가지 행동 차원에서 AI 모델의 성능을 측정한다. 오픈AI의 o3 모델이 헬스벤치에서 60%의 점수를 기록하며 가장 높은 성능을 보였다. 그 뒤를 일론 머스크의 Grok 3(54%), 구글의 Gemini 2.5 Pro(52%)가 이었으며, 클로드 3.7 소넷(42%)과 라마 4 매버릭(32%)이 그 뒤를 이었다. 특히 주목할 만한 점은 최근 출시된 오픈AI의 소형 모델인 GPT-4.1 나노가 GPU-4o보다 우수한 성능을 보이면서도 비용은 25배 저렴하다는 사실이다.
헬스벤치는 모델 성능뿐만 아니라 신뢰성과 비용 효율성도 함께 측정한다. 특히 의료와 같은 안전이 중요한 영역에서는 한 번의 잘못된 응답이 여러 번의 좋은 응답보다 더 심각한 결과를 초래할 수 있기 때문에, 최악의 성능 케이스를 분석하는 ‘worst-at-k’ 지표를 도입했다. 연구 결과에 따르면 최근 모델들의 신뢰성이 크게 향상되었으며, o3 모델의 worst-at-16 점수는 GPT-4o(2024년 8월 출시)의 2배 이상으로 나타났다. 그러나 여전히 신뢰성 측면에서 개선의 여지가 남아있다고 연구진은 지적한다.

AI vs 의사 대결에서 드러난 놀라운 사실, AI의 의료 응답이 의사의 실력을 뛰어넘다
헬스벤치는 의사들이 직접 작성한 응답과 AI 모델의 응답을 비교하는 실험도 진행했다. 흥미롭게도 최신 AI 모델들은 참조 자료 없이 작성한 의사의 응답보다 높은 성능을 보였다. 2024년 9월 모델을 참조한 의사들은 AI 응답을 개선할 수 있었으나, 2025년 4월 최신 모델의 응답에 대해서는 의사들의 추가 개선이 거의 이루어지지 않았다. 이는 의료 AI 기술이 빠르게 발전하고 있으며, 의사와 AI의 협업이 의료 서비스 품질을 향상시킬 수 있는 가능성을 보여준다.
의료 AI의 다음 과제: 실제 의료 현장 적용과 다양한 질환별 맞춤 평가 필요
헬스벤치가 의료 AI 평가에 중요한 이정표를 제시했지만, 몇 가지 한계점도 존재한다. 연구팀은 평가 기준 작성과 채점 과정에서 의사들 간의 의견 차이가 존재할 수 있음을 인정했다. 또한 특정 의료 워크플로우나 임상 결과를 직접 측정하지는 않는다. 향후 연구에서는 실제 의료 환경에서의 적용 효과와 특정 질환이나 인구집단에 맞춘 더 세밀한 평가가 이루어질 것으로 예상된다. 연구팀은 헬스벤치가 의료 AI 모델의 안전성과 유효성을 측정하는 공통 표준으로 발전하여, 궁극적으로 인간의 건강을 개선하는 데 기여하기를 기대한다.
FAQ
Q: 헬스벤치는 기존의 의료 AI 평가 방식과 어떻게 다른가요?
A: 기존의 평가는 주로 객관식 시험이나 짧은 질문 형태로 이루어졌지만, 헬스벤치는 실제 의료 상황을 반영한 다양한 대화와 의사들이 작성한 세부적인 평가 기준을 통해 AI의 응답을 종합적으로 평가합니다. 이는 단순한 정확도를 넘어 실제 의료 현장에서의 유용성을 측정할 수 있게 해줍니다.
Q: 헬스벤치 평가에서 가장 좋은 성능을 보인 모델은 무엇인가요?
A: 오픈AI의 o3 모델이 60%의 점수로 가장 높은 성능을 보였으며, Grok 3(54%), Gemini 2.5 Pro(52%)가 그 뒤를 이었습니다. 특히 소형 모델인 GPT-4.1 나노가 비용 대비 뛰어난 성능을 보이며 주목받았습니다.
Q: 의료 AI는 실제로 의사를 대체할 수 있을까요?
A: 헬스벤치 연구 결과, AI 모델은 특정 영역에서 인상적인 성능을 보이지만 의사의 전문적 판단과 경험을 완전히 대체하기보다는 보완하는 역할에 더 적합한 것으로 나타났습니다. 의사와 AI의 협업이 가장 좋은 결과를 가져올 수 있으며, 특히 의료 정보 접근성이 낮은 지역에서 AI의 활용 가치가 높을 것으로 예상됩니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: 오픈AI
기사는 클로드와 챗GPT를 활용해 작성되었습니다.