On the conversational persuasiveness of GPT-4
개인화된 GPT-4, 인간보다 81.2% 더 높은 설득력으로 대화 승리
대규모 언어 모델(LLM)이 설득력 있는 콘텐츠를 생성할 수 있다는 사실은 이미 초기 연구에서 밝혀졌다. 그러나 이러한 모델이 개인의 특성에 맞춰 논쟁을 개인화할 수 있는지에 대한 증거는 아직 부족하다. 스위스 EPFL 연구진이 이탈리아의 Bruno Kessler 재단과 협력해 진행한 해당 연구에서는 인공지능 기반 설득력을 통제된 환경에서 조사했다. 이 사전 등록된 연구에서 참가자들은 짧은 다중 라운드 토론에 참여했으며, 2×2×3 설계에 따라 12가지 조건 중 하나에 무작위로 배정되었다.
연구 결과, 인공지능과 인간의 설득력이 동일하지 않은 토론 쌍에서, 개인화된 GPT-4는 64.4%의 시간 동안 더 설득력이 있었다.
마이크로타게팅의 진화: 소셜 미디어부터 AI 설득까지
설득은 특정 문제에 대한 누군가의 신념, 입장 또는 의견을 변화시키는 과정으로, 사회 과학에서 널리 연구되는 주제다. 공중 보건 캠페인부터 마케팅과 판매, 정치 선전에 이르기까지 다양한 주체들이 대규모로 정교한 설득 커뮤니케이션 전략을 개발하고, 메시지가 광범위한 청중에게 공감을 얻도록 상당한 자원을 투자하고 있다. 최근 수십 년 동안 소셜 미디어와 다른 온라인 플랫폼의 확산은 “마이크로타게팅(microtargeting)”이라고 불리는 개인화 또는 메시지를 개인이나 그룹에 맞게 조정하여 설득력을 높이는 방식으로 대규모 설득의 잠재력을 확장했다.
마이크로타게팅의 효과는 특정 그룹의 사람들이 동일한 입력에 다르게 반응한다는 효과 이질성 가정에 의존하기 때문에 의문이 제기되어 왔지만, 다양한 환경에서 효과적이라는 것이 입증되었으며, 대부분의 학자들은 그 설득력을 인정하고 있다. 그러나 마이크로타게팅 관행은 개인을 프로파일링하고 특정 대상에 맞춘 개인화된 메시지를 작성하는 부담과 대화 없는 제한적 상호작용 맥락에 의해 근본적으로 제약받고 있다.
이러한 한계는 방대한 양의 텍스트 데이터를 섭취하여 인간 언어와 추론을 모방하도록 훈련된 대규모 언어 모델(LLM)의 최근 부상으로 인해 곧 사라질 수 있다. GPT-4, 클로드(Claude), 제미나이(Gemini)와 같은 모델은 유창함과 다양성을 갖춘 일관되고 맥락적으로 관련성 있는 텍스트를 생성할 수 있으며, 광범위한 작업에서 인간과 동등하거나 더 뛰어난 성능을 보여준다. 설득 맥락에서, 전문가들은 LLM이 온라인 대화를 조작하고 허위 정보를 확산시키고, 정치적 양극화를 악화시키고, 에코 챔버를 강화하고, 개인들이 새로운 신념을 채택하도록 설득하는 데 사용될 위험에 대해 광범위하게 우려를 표명해 왔다.
900명 실험 결과: 개인화된 GPT-4, 모든 주제와 인구통계에서 인간 설득력 능가
이 연구는 통제된, 직접 대화 환경에서 AI 기반 설득의 효과를 검토했다. 연구팀은 참가자들이 다양한 사회정치적 문제에 대해 짧은 다중 라운드 토론에 참여하는 웹 기반 플랫폼을 만들었다. 각 참가자는 무작위로 GPT-4 또는 실시간 인간 상대와 짝을 이뤘고, 토론 주제와 입장이 할당되었다. 개인화의 효과를 연구하기 위해, 연구팀은 상대가 참가자에 관한 사회인구학적 정보(성별, 나이, 인종, 교육 수준, 고용 상태, 정치적 소속)에 접근할 수 있는 조건도 실험했다.
또한 참가자들의 이전 의견 강도에 따라 세 가지 토론 주제 세트로 실험을 진행했다. 결과적으로 2×2×3 요인 설계(두 가지 상대 유형, 참가자 정보의 두 가지 수준, 세 가지 수준의 주제 강도)가 만들어졌다. 토론 전과 후의 참가자들의 의견 변화를 측정함으로써 다양한 처리의 설득 효과를 비교할 수 있었다.
연구의 주요 발견은 GPT-4가 토론 과제에서 인간과 동등하거나 더 나은 성능을 보였다는 것이다. 모든 주제와 인구통계에서 GPT-4 상대는 평균적으로 인간 상대보다 뛰어난 성능을 보였으며, 높은 수준의 설득력을 보여주었다. 특히 인간과 토론하는 기준 조건과 비교할 때, 개인화된 GPT-4와 토론하는 경우 상대에 대한 더 높은 동의를 보고할 확률이 81.2% 증가했다(95% 신뢰 구간 [+26.0%, +160.7%], P < 0.01).
더 직관적으로 말하면, 동등하게 설득력이 있지 않았다는 가정 하에, 64.4%의 시간 동안 개인화된 GPT-4 토론자가 인간 상대보다 더 설득력이 있었다. 개인화 없이는 GPT-4 상대가 인간 상대와 동등했고(P = 0.30), 개인화 접근을 가진 인간 상대도 마찬가지였다(P = 0.38). 다시 말해, GPT-4는 개인 정보를 활용하여 효과적으로 논쟁을 맞춤화할 수 있었을 뿐만 아니라, 인간보다 훨씬 더 효과적으로 그렇게 할 수 있었다.
논리적 설득과 스토리텔링의 차이: GPT-4와 인간의 언어 패턴 비교
연구팀은 처리 조건 전반에 걸쳐 논쟁이 어떻게 다른지 조사하기 위해 생성된 글의 텍스트 분석을 수행했다. 분석 결과, GPT-4 상대는 인간보다 논리적, 분석적 사고를 훨씬 더 많이 사용하는 경향이 있었다. 반면, 인간은 일인칭 단수와 이인칭 대명사를 더 많이 사용했고, 플레쉬 읽기 용이성 점수로 측정된 더 길지만 읽기 쉬운 텍스트를 생성했다. 길이와 이인칭 대명사 사용의 차이는 적어도 부분적으로 선택한 프롬프트에 의해 설명될 수 있다. GPT-4에게 단계당 한두 문장만 작성하고 상대가 먼저 하지 않는 한 직접 언급하지 말라고 지시했기 때문이다.
개인화에 의해 유도된 차이는 없는 것으로 보이며, 인간-인간과 인간-인간(개인화) 사이, 그리고 인간-AI와 인간-AI(개인화) 사이의 분포가 매우 유사했다. 기본적인 사회적 차원과 설득 전략 사용에 대한 분석은 GPT-4가 논리적 추론과 사실적 지식에 크게 의존했음을 확인했다. 반면, 인간은 유사성에 대한 호소, 지원과 신뢰의 표현을 더 많이 보였고, 스토리텔링을 더 많이 사용했다.
최소한의 개인정보만으로도 81.2% 설득력 증가…AI 설득의 미래와 위험
이 연구는 개인화와 AI 설득에 대한 우려가 정당하다는 것을 보여주며, LLM이 마이크로타게팅을 통해 온라인 대화에서 인간을 설득할 수 있다는 이전 결과를 강화한다. 연구팀은 얼마나 적은 개인 정보(성별, 나이, 인종, 교육 수준, 고용 상태, 정치적 소속)가 수집되었고, LLM에게 그러한 정보를 통합하도록 지시하는 프롬프트가 극도로 단순했음에도 불구하고 개인화의 효과가 특히 주목할 만하다고 강조한다.
개인 심리적 속성, 성격 특성, 도덕적 기반과 같은 속성을 활용하거나, 프롬프트 엔지니어링, 미세 조정 또는 특정 도메인 전문성을 통해 더 강력한 프롬프트를 개발함으로써 더욱 강력한 효과를 얻을 수 있을 것이다. 이러한 맥락에서, 대규모 허위 정보 캠페인을 위해 챗봇을 배포하는 데 관심이 있는 악의적 행위자들은 세밀한 디지털 흔적과 행동 데이터를 활용하여 개별 대상에 적응할 수 있는 정교하고 설득력 있는 기계를 구축할 수 있다.
연구팀은 온라인 플랫폼과 소셜 미디어가 이러한 위협을 진지하게 고려하고, AI 기반 설득의 확산을 막기 위한 조치를 구현하기 위한 노력을 확대해야 한다고 주장한다.
FAQ
Q: 개인화된 GPT-4는 인간보다 얼마나 더 설득력이 있나요?
A: 연구에 따르면, 설득력에 차이가 있는 토론에서 개인화된 GPT-4는 64.4%의 시간 동안 인간보다 더 설득력이 있었습니다. 이는 토론 후 동의도에서 81.2%의 상대적 증가를 보인 것으로, 통계적으로 유의미한 차이입니다(P < 0.01).
Q: 연구에서 사용된 개인화는 어떤 정보를 기반으로 했나요?
A: 연구에서는 참가자의 성별, 나이, 인종, 교육 수준, 고용 상태, 정치적 소속과 같은 기본적인 사회인구학적 정보를 사용했습니다. 주목할 만한 점은 이렇게 제한된 정보만으로도 GPT-4가 인간보다 훨씬 효과적으로 설득력 있는 논쟁을 구성할 수 있었다는 것입니다.
Q: 이 연구 결과가 현실 세계에 갖는 함의는 무엇인가요?
A: 이 연구는 LLM을 사용한 대화형 설득의 강력한 잠재력을 보여줍니다. 이는 온라인 허위 정보 확산, 정치적 양극화 심화, 대중 조작 등의 위험을 증가시킬 수 있습니다. 연구자들은 온라인 플랫폼들이 이러한 위협을 인식하고 적절한 대응책을 마련할 필요가 있다고 강조합니다.
해당 기사에서 인용한 보고서는 링크에서 확인할 수 있다.
이미지 출처: On the conversational persuasiveness of GPT-4
기사는 클로드와 챗GPT를 활용해 작성되었습니다.