Psychology-Informed Reinforcement Learning for Situated Virtual Coaching in Smoking Cessation
사용자 맞춤형 금연 중재를 위한 가상 코치 연구의 핵심 접근법
네덜란드의 델프트 공과대학교가 발표한 논문에 따르면, 강화학습(Reinforcement Learning)을 활용한 가상 코치 시스템이 흡연자들의 금연 성공률을 높이는 데 효과적인 것으로 나타났다. 이 연구는 강화학습(Reinforcement Learning, RL)을 활용해 가상 코치 기반 금연 중재를 더 효과적으로 만드는 방법을 탐색했다. 연구팀은 먼저 사용자들의 요구사항을 파악하고, 이를 바탕으로 세 가지 주요 영역을 조사했다. 첫째, 사용자들을 어떻게 설득할 것인가(how), 둘째, 무엇을 하도록 요청할 것인가(what), 셋째, 누가 지원할 것인가(who)에 대해 연구를 진행했다.
사용자 요구의 14가지 핵심 주제와 전문가-사용자 인식 차이
연구 결과, 금연 중재를 위한 가상 코치 개발에 필요한 사용자 요구사항은 크게 14가지 주제로 분류되었다. 이 주제들은 네 가지 범주로 구분된다: 1) 건강 어플리케이션 관련 사용자 행동, 2) 사용자 자신, 3) 행동에 관여할 수 있는 다른 주체들, 4) 행동이 이루어지는 환경이다. 구체적인 14가지 주제로는 행동의 유용성 인식(동기부여, 격려, 도움, 조언, 학습 기회 제공), 행동의 시기와 강도, 변화에 대한 사용자의 동기와 중요성 인식, 자율성 필요, 사용자의 성격과 같은 개인적 특성, 가상 코치나 일반 의사와의 동반자 의식, 책임감, 인간 또는 AI 여부, 충분한 시간 가용성, 사회적 환경의 지원 유용성, 프롬프트와 트리거의 유용성, 그리고 기타 다양한 환경적 요소들이 포함된다.
특히 가장 공통적인 주제는 행동의 유용성 인식으로, 사용자들과 전문가들의 인식이 항상 일치하지는 않는다는 점이 발견되었다. 예를 들어 신체 활동이 금연에 도움이 된다는 전문적 견해가 있음에도 여러 흡연자들은 이를 공감하지 않았다.
개인 참여도에 따라 달라지는 AI 설득 효과: 고참여 사용자일수록 91% 향상
연구팀은 강화학습 알고리즘을 개발해 사용자들을 설득하는 전략을 개인화했다. 특히 세 가지 알고리즘 요소를 순차적으로 도입했다. 1) 현재 상태, 2) 미래 상태 고려, 3) 사용자 유사성에 기반한 샘플 가중치 부여를 통합한 알고리즘을 테스트했다. 결과적으로 보다 복잡한 알고리즘(더 많은 요소를 포함한)은 사용자의 활동 노력과 인지된 동기부여 효과에 긍정적인 영향을 미쳤다. 특히 현재와 미래 상태를 고려하되 사용자 특성 기반 유사성은 고려하지 않는 중간 복잡도 알고리즘이 가장 효과적이었다. 이 효과는 활동에 높은 참여도를 보인 사용자들에게서 더욱 두드러졌다.
또한 금연과 신체 활동 증진을 위한 활동 유형별로 수집된 데이터에 기반하여 설득 전략의 효과도 분석했다. 두 가지 활동 유형에 대해 학습된 최적의 설득 전략 간 유사성은 상대적으로 낮아, 금연 활동과 신체 활동 증진을 위한 최적 설득 전략이 일반화되기 어렵다는 결론을 도출했다.

상태 vs. 특성: 금연 행동 예측에서 ‘지금 이 순간’이 개인 특성보다 중요한 이유
연구팀은 다음으로 사용자 특성과 상태에 기반한 행동 예측 성능을 비교했다. 사용자 특성(예: 신체 활동을 위한 변화 단계, 성격, 흡연 상태 등)은, 중재가 시작될 때 한 번만 수집하면 되는 장점이 있다. 그러나 결과적으로 다양한 설득 전략 후 사용자가 준비 활동에 쏟는 노력은 사용자 특성보다 상태에 기반해 예측할 때 더 정확했다.
다만 사용자가 중재 전반에 걸쳐 경험한 참여도와 같은 특성을 고려할 경우에는 상태 기반 예측의 우위가 뚜렷하지 않았다. 전체적으로 연구 결과는 행동에 개념적으로 가장 가까운 요소에 기반해 예측할 때 가장 효과적이라는 점을 보여주었다.
전문가-사용자 관점 결합한 AI: 5회 상호작용으로 전문가 정의 역량 91% 달성 성과
연구의 첫 번째 질문에서 발견된 가장 중요한 사용자 요구는 금연 중재와 관련된 행동의 유용성 인식이었다. 이와 관련하여, 전문가와 사용자의 관점이 다를 수 있으므로 두 관점을 모두 반영한 강화학습 모델이 개발되었다. 연구팀은 5단계로 구성된 파이프라인을 설계했다. 이를 통해 금연 준비를 위한 활동, 이러한 활동으로 형성되는 역량, 사용자 인식 변화를 위한 활동을 설계하고 강화학습 모델을 훈련시켰다.
시뮬레이션 결과, 이 모델은 5회의 상호작용 내에 전문가가 정의한 역량의 91%를 형성할 수 있게 했다. 모든 모델 구성요소가 이에 기여했지만, 유용성 믿음, 에너지, 전문가 역량 형성 정도에 기반한 사용자의 현재 상태가 가장 큰 영향을 미쳤다. 반면 다음 상태로의 전환 기여도는 상대적으로 작았다. 이는 미래가 아닌 현재 흡연자와 전문가의 관점을 고려하는 것의 가치를 확인시켜 주었다.
인간 코치 포함 시 책임감과 만족도 증가
연구의 첫 번째 질문에서는 가상 코치나 일반 의사와 같은 행동에 관여하는 다른 주체에 관한 사용자 요구도 확인되었다. 사용자들은 이러한 주체에 대한 책임감과 동반자 의식에 관심을 보였다. 사용자들이 표현한 바와 같이, 책임감과 동반자 의식은 상대가 인간인지 AI인지에 따라 영향을 받는다. 인간 코치의 지원을 포함하면 사용자는 더 큰 책임감을 느끼고 만족도가 높아질 수 있다.
인간 피드백의 선별적 제공: 50%의 피드백만으로도 효과 유지 가능
시뮬레이션 결과, 인간 피드백을 더 자주 제공하는 것이 일반적으로, 그러나 항상은 아니게, 시간이 지남에 따라 준비 활동에 투입하는 노력을 높였다. 특히 사용자가 금연 준비의 중요성을 높게 인식하고 자기 효능감이나 인간 피드백 평가가 낮을 때는 인간 피드백을 제공하지 않는 것이 장기적으로 더 좋았다. 두 가지 상태를 제외한 모든 경우에서 인간 피드백을 제공하는 것이 최적이었지만, 인간 자원이 부족할 경우 약 절반의 인간 피드백 메시지는 노력의 큰 감소 없이 제거할 수 있었다.
이는 금연 준비를 그다지 중요하게 여기지 않으면서도 금연 준비에 대한 자기 효능감이 높은 사람들에게 피드백을 제공할 때 장기적으로 가장 큰 노력 증가를 얻을 수 있음을 보여준다. 그러나 제한된 피드백을 가장 많은 혜택을 받을 사람들에게 할당하는 것은 의료 자원 할당을 위한 여러 윤리적 원칙 중 하나일 뿐이다. 다른 원칙으로는 피드백을 가장 원하는 사람들에게 제공(자율성), 가장 오래 기다린 사람들에게 제공(선착순), 또는 인간 피드백 없이 금연 준비에 성공할 가능성이 가장 낮은 사람들에게 제공(가장 아픈 사람 우선)하는 것이 있다.
연구의 한계와 미래 연구 방향
이 연구에는 몇 가지 한계가 있다. 첫째, 크라우드소싱 플랫폼 Prolific에서 모집된 참가자들로 연구가 수행되어 지리적, 문화적으로 다양한 인구를 대상으로 했지만, 젊고 교육 수준이 높은 사람들이 더 많이 대표되어 결과의 일반화가 제한될 수 있다. 둘째, 참가자들은 가상 코치와의 세션 완료에 대해 금전적 보상을 받았으므로 무보상 환경에서는 다른 결과가 나올 수 있다. 셋째, 연구 참가자 모두가 금연을 고려하거나 준비 중인 상태였기에 모든 흡연자에게 일반화하기 어렵다.
향후 연구를 위해 저자들은 시뮬레이션에서 관찰된 알고리즘 효과가 실제로 어떻게 일반화되는지 확인하기 위한 무작위 대조 시험을 제안했다. 또한 금연 준비 활동을 더 철저히 수행하는 것과 금연 성공 및 유지 사이의 연관성을 확인하기 위해 중재 직후와 6개월, 12개월 후 금연 상태에 대한 정보 수집이 필요하다.
FAQ
Q: 가상 코치 기반 금연 중재에서 가장 중요한 사용자 요구사항은 무엇인가요?
A: 가장 중요한 사용자 요구사항은 행동의 유용성 인식이었습니다. 사용자들은 동기부여, 격려, 도움, 조언 또는 학습 기회를 제공하는 행동을 유용하게 여겼습니다. 이 외에도 시간 가용성, 사회적 환경의 지원, 자율성 필요 등도 중요한 요구사항으로 확인되었습니다.
Q: 강화학습을 금연 중재에 활용할 때 가장 효과적인 알고리즘 구성은 무엇인가요?
A: 사용자의 현재 상태와 미래 상태를 고려하되, 사용자 특성 기반 유사성은 고려하지 않는 중간 복잡도 알고리즘이 가장 효과적이었습니다. 특히 이러한 효과는 활동에 높은 참여도를 보인 사용자들에게서 더욱 두드러졌습니다.
Q: 가상 코치에 인간 지원을 추가하는 것은 언제 효과적인가요?
A: 대부분의 경우 인간 피드백을 추가하는 것이 효과적이지만, 사용자가 금연 준비의 중요성을 높게 인식하면서 동시에 자기 효능감이나 인간 피드백 평가가 낮을 때는 오히려 효과가 떨어질 수 있습니다. 인간 자원이 제한되어 있다면, 금연 준비의 중요성을 낮게 여기면서도 자기 효능감이 높은 사용자들에게 피드백을 우선 제공하는 것이 장기적으로 가장 큰 효과를 가져옵니다.
해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기