인공지능(AI) 대규모 언어 모델(LLM)이 사회과학 실험의 결과를 높은 정확도로 예측할 수 있다는 연구 결과가 발표됐다. 스탠퍼드대학교와 뉴욕대학교 연구진은 발표한 ‘대규모 언어 모델을 사용하여 사회 과학 실험 결과 예측’(Predicting Results of Social Science Experiments Using Large Language Models) 논문에 따르면 AI가 인간 전문가 수준으로 실험 결과를 예측할 수 있음을 보여줬다. 이는 AI가 사회과학 연구를 보완하고 정보를 제공하는 데 중요한 도구가 될 수 있음을 시사한다.
LLM 연구 예측, 기존 연구 결과와 일치
연구진은 미국에서 수행된 70개의 사전 등록된 전국 대표성 있는 설문 실험 데이터를 분석했다. 이 실험들은 총 476개의 실험 처치 효과와 105,165명의 참가자를 포함하고 있다. 실험들은 정치학, 심리학, 사회학, 사회 정책, 공중 보건, 커뮤니케이션 등 다양한 분야의 77명의 사회·행동 과학자들이 설계했다.
연구팀은 공개적으로 이용 가능한 고급 LLM인 GPT-4를 활용해 미국인 대표 표본이 이 실험들의 자극에 어떻게 반응할지 시뮬레이션했다. LLM에 실험 자극, 결과 변수, 응답 척도 등 원래 연구 자료를 제공하고, 다양한 인구통계학적 프로필을 가진 가상의 참가자들의 응답을 예측하도록 했다.
분석 결과, LLM을 통해 도출된 예측은 실제 처치 효과와 높은 상관관계(r = 0.85)를 보였다. 이는 인간 예측자들의 정확도(r = 0.79)를 능가하는 수준이다. 특히 LLM의 예측 정확도는 GPT-3에서 GPT-4로 발전하면서 꾸준히 향상됐다.
연구진은 “LLM의 예측 능력이 모델의 학습 데이터에 포함되지 않은 미발표 연구에서도 높은 정확도(r = 0.90)를 보였다”며 “이는 LLM이 단순히 학습 데이터를 재현하는 것이 아니라 실제로 새로운 실험 결과를 예측할 수 있음을 시사한다”고 설명했다.
또한 LLM 기반 예측은 성별, 인종, 정당 등 다양한 인구 통계학적 하위 집단에서도 비교적 일관된 정확도를 보였다. 여성(r = 0.80)과 남성(r = 0.72), 흑인(r = 0.62)과 백인(r = 0.85), 민주당 지지자(r = 0.69)와 공화당 지지자(r = 0.74) 등 각 집단에 대한 예측 정확도가 유사했다. 연구팀은 “이는 실험 효과가 집단 간에 대체로 동질적이라는 기존 연구 결과와 일치한다”고 밝혔다.
LLM 예측 능력, 전문가만큼 정확
연구진은 LLM의 예측 능력을 실제 대규모 개입 실험에도 적용해 봤다. 9개의 대규모 실험(메가스터디)을 분석한 결과, LLM 기반 예측은 특히 텍스트 기반 개입과 설문 기반 결과 측정에서 전문가 예측만큼 정확했다.
이 대규모 다중 처치 실험들은 민주주의적 태도 강화, 기후 변화 대응 지지, 독감 예방접종 의도 등 다양한 사회적으로 유익한 결과를 목표로 하는 개입들의 효과를 테스트했다. 이 광범위한 실험 시리즈는 총 346개의 처치 효과를 분석했으며, 180만 명이 넘는 대규모 참가자 집단을 대상으로 진행됐다.
이러한 대규모 실험 프로젝트들은 다수의 처치 조건을 동시에 비교하고, 대규모 표본을 사용하여 작은 효과 크기도 정확히 측정할 수 있다는 점에서 특징적이다. 이를 통해 연구자들은 다양한 개입 전략의 상대적 효과를 직접적으로 비교하고, 가장 효과적인 접근법을 식별할 수 있었다.
연구팀은 LLM 기반 예측이 설문 실험(r = 0.47)에서 현장 실험(r = 0.27)보다 상대적으로 더 정확했다고 밝혔다. 또한 텍스트 기반 처치(r = 0.46)에 대한 예측이 비텍스트 기반 처치(r = 0.24)보다 더 정확했다.
특히 주목할 만한 점은 LLM 기반 예측(r = 0.37)이 전문가 예측(r = 0.25)과 비슷하거나 더 높은 정확도를 보였다는 것이다. 연구진은 “LLM의 속도, 낮은 비용, 전문가 대비 높은 정확도를 고려할 때, LLM이 사회적으로 유익한 개입을 식별하고 개발하는 데 유망한 도구가 될 수 있다”고 평가했다.
LLM, 실험 참가자 위험 노출 최소화 할 수 있어
이 연구 결과는 LLM이 사회과학 연구와 실제 개입 설계에 유용한 도구가 될 수 있음을 시사한다. 연구진은 LLM을 활용한 다양한 방안을 제시했다:
- 저비용 파일럿 연구 수행: 연구자들이 유망한 연구 아이디어를 빠르게 식별할 수 있다.
- 효과 크기 예측: 베이지안 사전 확률이나 검정력 분석에 사용할 효과 크기를 예측할 수 있다.
- 과거 연구의 신뢰성 평가: 기존 연구 결과의 신뢰성을 평가하고 재현이 필요한 연구를 식별할 수 있다.
- 정책 메시지 평가: 정책 입안자들이 공중 보건 행동이나 복지 프로그램 등록 장려를 위한 다양한 메시지 접근법을 효율적으로 평가할 수 있다.
연구팀은 “인간 참가자를 대상으로 한 실험이 윤리적 이유로 제한되는 상황에서 LLM 기반 시뮬레이션이 특히 가치가 있을 수 있다”고 덧붙였다. 예를 들어, 유해한 자극에 대한 노출이 필요한 연구(예: 콘텐츠 조정, 허위정보 연구)에서 LLM을 활용하면 인간 참가자의 위험 노출을 최소화할 수 있다.
LLM 예측, 악용될 소지 경계해야
그러나 연구팀은 LLM의 한계와 위험성에 대해서도 경고했다. 주요 한계점은 다음과 같다:
- 편향 가능성: 비록 이번 연구에서는 하위 집단 간 예측 정확도가 비슷했지만, 더 큰 이질성이 있는 경우 편향이 나타날 가능성을 배제할 수 없다.
- 적용 범위의 한계: LLM은 설문이나 텍스트 기반 실험에서 가장 정확했으며, 현장 실험이나 복잡한 설계의 실험 결과 예측에는 한계가 있었다.
- 표준화된 효과 크기 추정의 어려움: LLM이 인간 응답의 분산을 과소평가하는 경향이 있어, 표준화된 효과 크기(예: Cohen’s d) 추정에 어려움이 있다.
- 재현성 문제: GPT-4와 같은 비공개 모델은 엄격한 재현성 기준을 충족하지 못할 수 있다.
특히 연구팀은 LLM이 유해한 실험 결과도 정확히 예측할 수 있어 악용될 가능성이 있다는 점을 지적했다. 예를 들어, 백신 접종 의도를 낮추는 페이스북 게시물의 효과를 정확히 예측할 수 있었다. 연구진은 “LLM 호스팅 기업들이 사회적으로 유해한 처치를 포함한 인간 실험 시뮬레이션을 제한하는 2차 안전장치를 구현해야 한다”고 제안했다.
AI, 인간의 의사결정 대체 아닌 보완도구로 사용해야
결론적으로 이 연구는 AI가 사회과학 연구를 보완하고 정보를 제공하는 데 도움을 줄 수 있음을 보여준다. 다만 연구진은 “AI를 인간 직관과 의사결정을 대체하는 것이 아니라 보완하는 방식으로 활용해야 한다”고 강조했다.
연구진은 이번 연구를 바탕으로 향후 추가적인 연구가 필요한 영역들을 제시했다. 우선 미국 외 다른 문화권에서 LLM의 예측 정확도를 평가해야 한다고 밝혔다. 이는 LLM의 예측 능력이 문화적 맥락에 따라 어떻게 달라지는지 이해하는 데 중요할 것으로 보인다.
또한 교육 수준과 같은 다른 인구통계학적 특성이나 흑인 여성과 같은 교차 집단에 대한 LLM의 예측 정확도를 평가할 필요가 있다고 제안했다. 이는 LLM이 다양한 집단에 대해 공정하고 정확한 예측을 할 수 있는지 확인하는 데 도움이 될 것이다.
현장 실험이나 복잡한 설계의 실험 결과를 더 정확히 예측하는 방법을 개발하는 것도 중요한 과제로 꼽혔다. 이는 LLM의 적용 범위를 확장하고 더 다양한 유형의 사회과학 연구에 활용할 수 있게 할 것이다.
연구팀은 또한 표준화된 효과 크기를 추정하는 방법을 개선해야 한다고 지적했다. 이는 LLM을 통한 예측 결과를 다른 연구 결과와 비교하거나 메타 분석에 활용하는 데 중요할 것으로 보인다.
마지막으로, 개방형 LLM의 예측 정확도를 향상시키는 것이 필요하다고 밝혔다. 이는 연구의 투명성과 재현성을 높이는 데 기여할 수 있을 것이다. 연구진은 이러한 과제들을 해결함으로써 LLM을 사회과학 연구에 더욱 효과적으로 활용할 수 있을 것으로 전망했다.
연구팀은 “LLM을 과학적 과정에 신중하게 통합함으로써, 사회·행동 과학이 새로운 기술의 혜택을 누리면서도 분야의 집단적 가치와 목표에 뿌리를 둘 수 있을 것”이라고 전망했다.
기사에 인용된 논문은 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기