Search

AI가 준 조언, 심각한 문제에도 62% 실천했지만… 2주 후 효과는 ‘제로’

People readily follow personal advice from AI but it does not improve their well-being
이미지 출처: 이디오그램 생성

영국 AI 안전연구소(UK AI Security Institute)의 대규모 실험 연구가 충격적인 결과를 발표했다. 해당 논문에 따르면, 사람들은 AI가 제공하는 개인적 조언을 기꺼이 따르지만, 정작 그 조언이 웰빙 개선에는 전혀 도움이 되지 않는 것으로 나타났다. 전 세계 인구의 10%가 대형언어모델(LLM)을 정기적으로 사용하는 시대, 이 연구는 AI 조언의 실효성에 대한 근본적인 질문을 던진다.

GPT-4o와 20분 대화했더니 75%가 조언 실천했다

연구진은 영국 성인 2,302명을 대상으로 종단 무작위 대조 실험을 진행했다. 참가자들은 GPT-4o와 건강, 커리어, 인간관계에 관한 20분간의 대화를 나눴다. 놀랍게도 실험 조건에 참여한 참가자의 75.6%가 2~3주 후 추적 조사에서 AI의 조언을 실제로 따랐다고 보고했다. 이는 취미에 관해 대화한 대조군(59.5%)보다 27% 높은 수치다.

특히 개인 맞춤화된 AI, 즉 사용자의 상세 정보에 접근할 수 있었던 AI의 조언은 더 높은 실천율을 보였다. 개인 정보에 접근한 AI의 조언을 따른 비율은 77.7%로, 그렇지 않은 경우(73.6%)보다 4.1%포인트 높았다. 연구진이 테스트한 안전 지향 프롬프팅이나 실행 가능한 조언 제공 여부 같은 다른 요인들은 조언 실천율에 유의미한 영향을 미치지 않았다.

더욱 주목할 점은 사람들이 문제의 심각성이나 조언의 위험도에 관계없이 AI 조언을 따랐다는 사실이다. 매우 심각한 문제에 대한 조언도 62%가 실천했고, 높은 위험도의 조언 역시 60% 이상이 따랐다. 건강 관련 문제를 논의한 참가자들이 가장 높은 조언 실천율(73.0%)을 보였으며, 커리어 관련 조언(64.8%)이 가장 낮았다.

유해 조언은 0.09%에 불과했지만 안전장치 필수

AI가 제공하는 조언의 안전성을 검증하기 위해 연구진은 의료, 정신건강, 직업, 관계 분야 전문가들과 협력해 유해 조언 탐지 모델을 개발했다. 약 6,700개의 사례를 전문가들이 0점(안전)부터 4점(심각한 유해)까지 평가한 데이터로 Llama-3.1-8B 모델을 미세조정했다. 이 모델은 96%의 정확도로 유해 조언을 탐지할 수 있었다.

실험 중 이 안전장치 시스템이 실시간으로 대화를 모니터링한 결과, 전체 AI 응답의 0.09%만이 잠재적으로 유해한 것으로 분류됐다. 참가자 수준에서 보면, 안전장치가 없었다면 전체 참가자의 0.96%(22명)가 대화 중 최소 한 번은 유해한 조언을 접했을 것으로 추정된다. 안전 지향 프롬프팅은 유해 조언 생성률을 낮추지 못했는데, 이는 프롬프팅만으로는 AI의 안전성 프로필을 개선하기 어렵다는 것을 시사한다.

연구진은 모든 잠재적 유해 응답을 자동으로 차단하고 재생성하는 시스템을 구축했다. 실제로 연구 참가자 중 누구도 유해하거나 고통스러운 콘텐츠에 노출됐다고 보고하지 않았다. 유해 조언의 주제는 문제의 심각성이나 조언의 위험도와 상관관계를 보이지 않았다. 이는 AI가 일관되게 안전한 조언을 제공하도록 만드는 것이 얼마나 중요한지를 보여준다.

웰빙 개선 효과는 취미 대화와 차이 없어

가장 주목할 만한 발견은 AI의 개인적 조언이 장기적으로 웰빙 개선에 전혀 도움이 되지 않았다는 점이다. 연구진은 우울증(PHQ-2), 불안(GAD-2), 신체 증상, 수면 질, 주관적 웰빙 등 10가지 검증된 설문을 통해 웰빙 점수를 측정했다. 대화 직후에는 개인 문제를 논의한 그룹이 취미를 논의한 대조군보다 웰빙 점수가 오히려 낮아졌다. 2~3주 후 추적 조사에서는 두 그룹 간 차이가 사라졌으며, 장기적인 웰빙 개선 효과는 발견되지 않았다.

조언을 따른 사람들은 그렇지 않은 사람들보다 웰빙 개선을 보고했지만, 이는 실험 조건과 대조 조건 모두에서 동일하게 나타났다. 즉, 건강이나 인간관계에 대한 AI 조언을 따르는 것이 취미에 대한 AI 제안을 따르는 것보다 더 나은 결과를 가져오지 않았다. 개인 맞춤화된 AI는 약간 높은 주관적 조언 가치 평가를 받았지만, 이것 역시 대조군 대비 장기적 웰빙 이점으로 이어지지 않았다.

임상적으로 의미 있는 정신건강 악화를 측정한 결과에서도 실험 조건과 대조 조건 간 차이가 없었다. PHQ-2와 GAD-2 척도에서 임상 역치를 넘거나 신뢰할 만한 증상 악화를 보인 참가자 비율은 모든 조건에서 약 6~8%로 유사했다. 이는 AI와의 대화가 개인 수준에서 해로운 영향을 미치지는 않았지만, 동시에 특별한 보호 효과도 없었음을 의미한다.

종교인, 젊은 층, AI 경험자가 조언 더 잘 따라

누가 AI 조언을 더 잘 따르는지에 대한 분석도 흥미롭다. 종교를 가진 사람들, 젊은 사용자, AI 사용 경험이 많은 참가자들이 AI 조언을 따를 가능성이 높았다. 이는 특정 집단이 AI 조언의 잠재적 위험에 더 취약할 수 있음을 시사한다. 문제의 심각성과 조언 실천율 사이에는 역U자형 관계가 나타났는데, 중간 정도 심각성의 문제에 대한 조언을 가장 많이 따랐다.

참가자들이 조언을 따르겠다고 밝힌 의도는 실제 실천의 강력한 예측 변수였다. 또한 예상 밖의 놀라운 조언일수록 더 잘 따르는 경향이 있었다. 이는 새로운 관점을 제시하는 조언이 특히 영향력이 있다는 기존 연구 결과와 일치한다. 반면 AI의 아첨 행동이나 사용자 참여도는 전반적으로 조언 실천과 무관했지만, 세부 분석에서 사용자에 대한 과도한 칭찬이나 동의 추구는 조언 실천율을 높이는 것으로 나타났다.

조언의 밀도, 즉 대화에서 실행 가능한 제안이 차지하는 비율도 중요한 요소였다. 실험 조건의 조언 밀도는 대조군보다 높았으며, 안전 지향 프롬프팅은 조언 밀도를 낮춘 반면 실행 가능성 강조는 조언 밀도를 높였다. 개인화는 조언 밀도에 영향을 미치지 않았지만, 개인화된 조건에서 조언 밀도와 실천율 사이의 관계가 달라지는 양상을 보였다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: AI가 주는 조언은 얼마나 안전한가요?

A: 이 연구에서 전문가 기반 안전장치를 적용한 결과 전체 AI 응답의 0.09%만이 잠재적으로 유해했습니다. 하지만 이는 추가 안전 시스템이 있었기 때문이며, 일반 LLM이 항상 안전하다는 의미는 아닙니다. 안전 프롬프팅만으로는 유해 조언을 줄이기 어려워 기술적 안전장치가 필수적입니다.

Q: 왜 사람들은 AI 조언을 그렇게 잘 따를까요?

A: GPT-4o 같은 현대 LLM은 도움을 주는 조력자로 훈련돼 사용자가 짧은 대화에서도 이를 신뢰할 만한 전문가로 인식하기 때문입니다. 특히 개인화된 정보에 접근한 AI의 조언은 더욱 실현 가능하고 유용하게 느껴져 실천율이 높아집니다. 놀랍게도 문제가 심각하거나 조언이 위험해도 실천율이 떨어지지 않았습니다.

Q: AI 조언이 실제로 도움이 되나요?

A: 이 연구에서는 AI의 개인적 조언이 장기적으로 웰빙을 개선하지 못했습니다. 건강, 커리어, 인간관계에 대한 AI 조언을 따르는 것이 취미에 대한 제안을 따르는 것보다 나은 결과를 가져오지 않았습니다. AI와 대화하면 순간적으로 기분이 나아질 수 있지만, 이 효과는 2~3주 후 사라졌습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: People readily follow personal advice from AI but it does not improve their well-being

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI가 준 조언, 심각한 문제에도 62% 실천했지만… 2주 후 효과는 ‘제로’ – AI 매터스