병원 설문지가 대화로 바뀐다…GPT가 환자 문진표를 대신 작성하는 시대

병원에서 긴 설문지를 작성하느라 손목이 아픈 경험, 누구나 있을 것이다. 특히 허리 통증으로 병원을 찾은 환자라면 40개가 넘는 질문에 답하는 일은 고역이다. 하지만 이제 챗GPT처럼 대화하듯 증상을 말하면 AI가 알아서 의료 기록을 완성해주는 시대가 열렸다. 호주 맥쿼리대학교와 이스라엘 하이파대학교 연구팀이 개발한 이 대화형 AI는 단순히 질문을 하나씩 던지는 방식이 아니라, 환자와 자연스러운 대화를 나누며 여러 정보를 한 번에 수집한다. 연구팀은 개발 과정에서 얻은 교훈을 바탕으로 의료용 대화형 AI를 만들 때 반드시 지켜야 할 설계 원칙을 제시했다.

진료 시간 28.7% 단축, 대화형 AI가 의료 현장을 바꾼다

최근 2,000명 이상의 환자를 대상으로 한 대규모 임상시험에서 대화형 AI가 전문의 진료 시간을 28.7%나 줄였다는 결과가 나왔다. 이는 단순히 시간을 아끼는 것을 넘어 의료진의 문서 작업 부담을 크게 덜어준다는 의미다. 실제로 의료진의 문서 작업 부담은 오랫동안 심각한 문제로 지적돼 왔다. 또 다른 연구에서는 64,000명 이상의 환자로부터 정신건강 평가 데이터를 대화형 AI로 수집하는 데 성공했다.

연구팀이 개발한 허리 통증 데이터 수집 AI는 미국 국립보건원(NIH) 태스크포스가 권장하는 표준 데이터셋을 기반으로 한다. 이 데이터셋에는 40개가 넘는 항목이 포함돼 있어 환자가 정확하고 완전하게 작성하기 매우 어렵다. 기존의 대화형 AI들은 “통증이 언제 시작됐나요?”라고 묻고, 답을 듣고, 다시 “통증의 강도는 어느 정도인가요?”라고 묻는 식으로 질문을 하나씩 던졌다. 하지만 이번에 개발된 AI는 “증상에 대해 말씀해주세요”라고 물으면 환자가 자유롭게 이야기하는 동안 여러 정보를 동시에 파악한다. 마치 숙련된 의사가 환자의 이야기를 들으며 필요한 정보를 머릿속으로 정리하는 것과 비슷하다.

딱딱한 설문지 대신 자연스러운 대화, 사용자 만족도 급상승

대화형 인터페이스가 기존 온라인 설문지보다 얼마나 효과적일까? 여러 연구가 명확한 답을 제시한다. 한 비교 연구에서 대화형 AI는 시스템 사용성 점수에서 69.7점을 기록해 온라인 설문지의 67.7점을 앞질렀다. 더 중요한 지표인 순추천지수(NPS)에서는 24점 대 13점으로 거의 두 배 가까운 차이를 보였다. 이는 사용자들이 대화형 방식을 훨씬 더 선호한다는 의미다. 가족 건강 이력 수집 연구에서는 그 차이가 더욱 극적이었다. 대화형 AI의 사용성 점수는 80.2점으로 설문지 방식의 61.9점을 크게 앞섰다.

하지만 모든 것이 장점만 있는 것은 아니다. 대화가 길어질수록 사용자 만족도가 떨어진다는 연구 결과도 있다. 짧은 대화에서는 호의적이던 사용자들이 긴 대화에서는 피로감을 느낀다. 이는 40개 이상의 항목을 수집해야 하는 허리 통증 데이터 같은 경우 특히 중요한 고려사항이다. 연구팀은 이 문제를 해결하기 위해 대화를 여러 주제로 나누고, 사용자에게 진행 상황을 알려주며, 적절히 격려하는 방식을 도입했다.

공감은 적당히, 의학 조언은 절대 금지…의료 AI의 까다로운 균형

의료용 대화형 AI를 설계할 때 가장 까다로운 부분은 AI의 ‘성격’을 조율하는 일이다. 너무 무뚝뚝하면 환자가 불편하고, 너무 친근하면 전문성이 떨어져 보인다. 연구팀은 AI가 “재미있지만 적절하고, 속어를 쓰지 않으며, 존중하는 태도”를 유지하도록 지시했다. 또한 환자가 부정적인 반응을 보일 때는 공감하는 톤으로 응답하도록 했다. 예를 들어 환자가 “통증 때문에 밤에 잠을 전혀 못 자요”라고 말하면 AI는 “그건 정말 힘드시겠어요”라고 반응한 뒤 다음 질문으로 넘어간다.

하지만 공감에도 한계가 있다. 연구팀은 AI가 절대로 의학적 조언을 해서는 안 된다고 강조했다. AI의 역할은 오직 데이터를 수집하는 것뿐이다. “허리를 따뜻하게 찜질하세요” 같은 조언은 아무리 상식적으로 들려도 금지된다. 이는 환자 안전을 위한 필수 원칙이다. 실제로 한 연구에서는 임상의가 대화 기록을 정기적으로 검토해 잠재적 위험이 있는 환자에게 연락할 수 있도록 했다. 이처럼 AI가 아무리 발전해도 의료 현장에서는 인간 전문가의 감독이 여전히 필요하다.

신호등 색깔로 보여주는 AI의 확신도, 데이터 품질을 지키는 비결

대화형 AI가 환자의 말을 제대로 이해했는지 어떻게 확인할 수 있을까? 환자가 “허리가 좀 아파요”라고 말했을 때 AI는 이것이 “약간 아픔”인지 “매우 아픔”인지 확신할 수 없을 수 있다. 연구팀은 이 문제를 해결하기 위해 ‘확신도 시각화’ 방법을 제안했다. 마치 신호등처럼 녹색, 노란색, 빨간색으로 AI가 수집한 정보의 확실성을 표시하는 것이다. 녹색은 “확실히 이해했습니다”, 노란색은 “이렇게 이해했는데 맞나요?”, 빨간색은 “다시 한 번 말씀해주시겠어요?”를 의미한다.

또한 AI는 수집한 정보를 환자에게 다시 보여주고 확인을 받는다. “지금까지 말씀하신 내용을 정리하면, 통증은 3개월 전에 시작됐고 강도는 10점 만점에 7점 정도이며 왼쪽 다리로 퍼진다고 하셨습니다. 맞나요?” 이런 식으로 환자가 직접 확인하고 수정할 기회를 준다. 이는 단순히 정확성을 높이는 것을 넘어 환자에게 통제감을 주고 신뢰를 쌓는 중요한 과정이다.

연구팀은 대화가 길어질수록 나중에 나오는 질문들에 대한 데이터 수집 품질이 떨어질 수 있다는 점도 발견했다. 이는 AI가 긴 대화 내용을 처리하면서 초반에 제시된 지시사항을 ‘잊어버리는’ 경향이 있기 때문이다. 해결책은 대화를 여러 단계로 나누는 것이다. 마치 긴 시험을 여러 섹션으로 나누듯, 데이터 수집도 “증상 단계”, “일상생활 영향 단계”, “수면 영향 단계” 등으로 분리하면 각 단계에서 더 정확한 데이터를 얻을 수 있다.

설문지, 채팅, 음성…환자가 선택하는 입력 방식의 자유

연구팀이 제시한 핵심 원칙 중 하나는 ‘상호작용 유연성’이다. 어떤 환자는 전통적인 설문지 형식을 선호할 수 있고, 어떤 환자는 타이핑으로 대화하는 것을 좋아하며, 또 어떤 환자는 음성으로 말하는 것이 편할 수 있다. 이상적인 시스템은 환자가 이 세 가지 방식을 자유롭게 전환할 수 있어야 한다. 예를 들어 집에서는 음성으로 편하게 말하다가 대중교통에서는 타이핑으로, 복잡한 질문에는 설문지 형식으로 답할 수 있는 것이다.

대형 언어모델(LLM)은 본질적으로 유연성을 가지고 있어 이런 다양한 상호작용을 지원하기에 적합하다. 하지만 무제한적인 자유는 오히려 문제가 될 수 있다. 환자가 “의사 선생님은 뭐라고 하던가요?”라고 물으면 AI가 의학 조언을 하려고 할 수 있다. 따라서 프롬프트(AI에게 주는 지시사항)를 신중하게 설계해 필요한 유연성은 유지하되 위험한 행동은 제한해야 한다. 연구팀은 “데이터 수집에만 집중하고 의학적 조언은 절대 하지 말라”는 명확한 제약을 프롬프트에 포함시켰다.

또한 AI는 환자의 대화 스타일에 맞춰 적응해야 한다. 어떤 환자는 간결하게 “3개월 전, 7점, 왼쪽 다리”라고 답할 수 있고, 어떤 환자는 “사실 정확히 언제부터인지는 모르겠는데요, 작년 여름쯤이었던 것 같아요. 처음엔 별로 안 아팠는데 점점 심해져서 지금은 정말 힘들어요”라고 길게 설명할 수 있다. AI는 두 경우 모두에서 필요한 정보를 추출할 수 있어야 한다. 연구팀은 질문을 기술적이고 딱딱하게 제시하지 말고 자연스러운 대화처럼 풀어서 물어보도록 설계했다. 예를 들어 “통증의 시각적 아날로그 척도 점수는?”이 아니라 “통증이 얼마나 심한지 0점부터 10점까지로 표현하면 어느 정도일까요?”라고 묻는 식이다.

복잡한 의학 용어는 쉽게, 선택지는 번호로…명확성의 원칙

의료 설문지에는 일반인이 이해하기 어려운 용어들이 많다. “방사통(radicular pain)”이나 “신경근병증(radiculopathy)” 같은 단어를 환자가 정확히 이해하고 답하기는 어렵다. 연구팀은 질문을 단순하게 유지하고 복잡한 용어의 의미를 함께 제공하라고 권고했다. “방사통이 있나요?” 대신 “통증이 허리에서 시작해서 다리로 퍼지는 느낌이 있나요?”라고 물어야 환자가 정확히 답할 수 있다.

선택지가 많고 복잡할 때는 번호를 매기는 것이 효과적이다. 특히 괄호와 쉼표가 포함된 긴 선택지가 있을 때 AI가 혼란스러워할 수 있다. “1) 전혀 아프지 않음, 2) 약간 아픔, 3) 중간 정도 아픔, 4) 많이 아픔, 5) 극심하게 아픔”처럼 명확히 번호를 매기면 AI가 환자의 답변을 정확히 매칭할 수 있다. 또한 표준 설문지의 선택지를 현지 상황에 맞게 조정하는 것도 중요하다. 예를 들어 인종이나 민족 관련 용어는 나라마다 다르므로 각 지역에 맞게 수정해야 한다.

연구팀은 일관성의 원칙도 강조했다. 같은 개념을 물을 때는 항상 같은 용어와 형식을 사용해야 한다. 한 번은 “통증 강도”라고 하고 다음에는 “얼마나 아픈지”라고 하면 환자도 혼란스럽고 AI의 데이터 처리도 복잡해진다. 또한 의미 있는 색상 체계를 사용해 추가 정보를 전달할 수 있다. 예를 들어 통증 강도를 녹색(경미), 노란색(중간), 빨간색(심각)으로 시각화하면 환자와 의료진 모두 한눈에 상태를 파악할 수 있다.

격려와 진행 상황 알림으로 완료율 높이기

40개가 넘는 질문에 답하는 것은 지루한 일이다. 연구팀은 환자가 설문을 끝까지 완료하도록 격려하는 기능을 설계 원칙에 포함시켰다. 가장 간단한 방법은 진행 상황을 알려주는 것이다. “전체 5개 주제 중 2개를 완료하셨습니다” 같은 메시지는 환자에게 명확한 목표를 제시하고 성취감을 준다. 마라톤을 뛸 때 중간 지점마다 표지판이 있으면 힘이 나는 것과 같은 원리다.

또한 적절한 격려 메시지도 중요하다. “잘하고 계세요. 조금만 더 하면 됩니다”나 “이 정보는 의사 선생님이 더 나은 치료 계획을 세우는 데 큰 도움이 될 거예요” 같은 메시지는 환자에게 동기를 부여한다. 하지만 지나치게 자주 격려하면 오히려 성가실 수 있으므로 적절한 빈도를 찾는 것이 중요하다. 연구팀은 각 주제 섹션을 완료할 때마다 격려 메시지를 제공하는 방식을 채택했다.

환자가 중간에 멈추고 나중에 다시 돌아올 수 있는 기능도 필요하다. 긴 설문을 한 번에 완료하기 어려울 수 있으므로 진행 상황을 저장하고 나중에 이어서 할 수 있어야 한다. 이는 기술적으로는 간단하지만 완료율을 크게 높일 수 있는 기능이다. 스마트폰 앱에서 쇼핑을 하다가 장바구니에 담아두고 나중에 다시 결제하는 것처럼, 의료 데이터 수집도 같은 유연성을 제공해야 한다.

신뢰 구축과 상호운용성, 의료 시스템 통합의 필수 조건

환자가 대화형 AI를 신뢰하려면 그 기반이 탄탄해야 한다. 연구팀은 증거 기반 설문지를 사용하는 것을 핵심 원칙으로 제시했다. NIH 태스크포스가 권장하는 표준 데이터셋처럼 의학적으로 검증된 질문들을 사용하면 환자와 의료진 모두 그 결과를 신뢰할 수 있다. 또한 대화의 톤을 적절히 통제하고 의학적 조언을 하지 않는 것도 신뢰 구축에 중요하다. 환자는 AI가 자신의 역할 범위를 명확히 알고 그 안에서만 행동한다는 것을 느낄 때 더 편안하게 정보를 공유한다.

로그 기록과 정기적 검토도 필수적이다. AI가 수집한 모든 대화와 데이터는 기록되어야 하고, 의료진이 정기적으로 검토해 데이터 품질을 높이고 문제를 조기에 발견할 수 있어야 한다. 이는 환자 안전을 위해서도 중요하다. 예를 들어 환자가 “자살하고 싶다”는 표현을 했다면 즉시 의료진에게 알려져야 한다. 로그를 통해 수집된 데이터를 원래 대화로 추적할 수 있어야 나중에 불명확한 부분을 확인하거나 오류를 수정할 수 있다.

마지막으로 상호운용성(interoperability)은 AI 시스템이 실제 의료 현장에서 사용되기 위한 필수 조건이다. AI가 수집한 데이터는 병원의 전자건강기록(EHR) 시스템으로 자동으로 전송되어야 한다. 의료진이 AI 시스템에서 데이터를 복사해 다시 입력해야 한다면 효율성이 크게 떨어진다. 연구팀은 표준화된 데이터 형식을 사용하고 기존 의료 시스템과의 통합을 설계 초기부터 고려하라고 권고했다. 이는 기술적으로 복잡하지만 대화형 AI가 실험실을 벗어나 실제 병원에서 사용되려면 반드시 해결해야 할 과제다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 대화형 AI로 병원 설문지를 작성하면 정말 더 빠르고 정확한가요?

A. 실제 임상시험 결과 대화형 AI를 사용하면 전문의 진료 시간이 28.7% 단축됐고, 사용자 만족도도 기존 온라인 설문지보다 높게 나타났습니다. 특히 순추천지수는 24점 대 13점으로 거의 두 배 차이를 보였습니다. 다만 대화가 너무 길어지면 오히려 만족도가 떨어질 수 있어 적절한 길이 조절이 중요합니다.

Q2. AI가 환자의 말을 잘못 이해하면 어떻게 되나요?

A. 연구팀은 신호등 색깔처럼 AI의 확신도를 시각적으로 표시하는 방법을 제안했습니다. 녹색은 확실히 이해했다는 뜻이고, 노란색은 확인이 필요하며, 빨간색은 다시 물어봐야 한다는 의미입니다. 또한 AI가 수집한 정보를 환자에게 다시 보여주고 확인받는 과정을 거쳐 정확성을 높입니다.

Q3. 의료용 대화형 AI가 환자에게 치료 조언을 해도 되나요?

A. 절대 안 됩니다. 연구팀은 AI의 역할을 오직 데이터 수집으로만 제한해야 한다고 강조했습니다. 아무리 상식적으로 들리는 조언이라도 AI가 의학적 조언을 하면 환자 안전에 위험이 될 수 있습니다. 임상의가 대화 기록을 정기적으로 검토해 잠재적 위험을 감지하는 것이 중요합니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Conversational AI for Automated Patient Questionnaire Completion: Development Insights and Design Principles

이미지 출처: AI 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.