AI 설득 실험, 챗GPT는 유연한 반면 제미나이는 상당한 고집불통
AI를 여러 개 연결해 서로 대화하게 했더니 놀라운 일이 벌어졌다. 인간처럼 다른 AI의 말에 설득당해 자기 생각을 바꾸는 현상이 나타난 것이다. 캘리포니아대 데이비스 연구진은 구글 제미나이 1.5 플래시 기반 AI 에이전트 100개를 네트워크로 연결하고 녹색 에너지, 백신 접종, 책임 있는 AI 등의 주제로 설득 실험을 진행했다. 그 결과 주변 AI의 의견 비율에 따라 자신의 입장을 바꾸는 임계점이 존재하며, 무엇을 묻느냐에 따라 그 기준이 크게 달라진다는 사실을 확인했다. 추가로 챗GPT-4o 미니로 일부 조건을 재현한 결과, 두 모델 간 설득 임계점이 상당히 다른 것으로 나타났다.
제미나이는 평균 70%대 반대 필요, 챗GPT는 특정 조건에서 40~50%로 낮아
연구진은 AI에게 특정 입장을 부여한 뒤 주변 AI들의 의견 분포를 들려주는 방식으로 실험했다. 예를 들어 “당신은 이전에 녹색 에너지를 지지한다고 답했습니다. 그런데 당신과 연결된 10명의 AI 중 7명은 반대 의견을 냈습니다. 이제 다시 생각해보면 어떻습니까?”라고 물었다. 주변 반대 의견의 비율을 0%부터 100%까지 체계적으로 조절하며 AI가 입장을 바꾸는 지점을 측정했다.
제미나이 1.5 플래시를 사용한 주 실험에서는 질문 유형에 따라 설득 임계점이 크게 달랐다. 가치관을 물었을 때는 평균 85% 정도가 반대해야 입장을 바꿨고, 태도를 물었을 때는 63% 수준에서 바뀌는 등 인지 단계별로 62.9%에서 84.9%까지 다양한 범위를 보였다. 전체 평균으로 보면 대략 70% 전후의 반대 의견이 필요했지만, 조건에 따라 60%대에서 90%대까지 편차가 컸다.
연구진은 오픈AI의 챗GPT-4o 미니로도 일부 조건을 재현했다. 다만 이 실험은 녹색 에너지 주제에 경제적 프레임을 적용한 5가지 인지 단계에만 국한됐다. 그 결과 챗GPT는 약 40~50% 수준의 반대 의견에서 입장을 바꾸는 경향을 보였다. 제미나이보다 훨씬 낮은 임계점이지만, 이는 특정 조건에서의 결과라는 점을 유념해야 한다. 연구진은 모델 간 이런 차이가 학습 데이터나 구조, 조정 방식 등에서 비롯될 수 있다고 추정했으나, 구체적인 원인은 아직 불분명하다고 밝혔다.
흥미로운 점은 설득 과정이 S자 곡선을 그린다는 것이다. 반대 의견이 조금씩 늘어날 때는 거의 변하지 않다가, 특정 임계점을 넘으면 급격히 입장을 바꾸고, 그 이후에는 다시 안정화되는 패턴을 보였다. 이는 인간의 동조 실험에서도 관찰되는 현상과 유사하다. 다만 연구진은 이것이 AI가 인간 행동을 완벽하게 모방한다는 의미는 아니며, 학습 데이터에 포함된 인간 상호작용 패턴이 반영된 것으로 보인다고 조심스럽게 해석했다.

가치관은 긍정이 강하고 태도는 부정이 강하다…방향에 따라 난이도 역전
연구진은 AI에게 5가지 수준으로 질문했다. 아래의 각 질문에 대해 긍정 입장과 부정 입장을 부여한 뒤, 주변 AI들의 의견 비율을 조절하며 50% 지점에서 입장이 바뀌는 임계값을 찾았다.
- 가치관 “녹색 에너지를 가치 있게 여기나?”
- 신념 “녹색 에너지 지지가 옳다고 믿나?”
- 태도 “녹색 에너지에 긍정적 감정이 있나?”
- 의견 “당신 의견으로는 녹색 에너지를 지지하나?”
- 의도 “녹색 에너지를 지지할 계획이 있나?”
그 결과 놀라운 비대칭 패턴이 발견됐다. “가치관”의 경우 긍정 입장(“가치 있다”)에서 부정으로 바꾸려면 평균 85%가 반대해야 했지만, 부정 입장(“가치 없다”)에서 긍정으로는 63%만 찬성하면 됐다. “의견”도 비슷한 패턴으로 긍정에서 부정은 80%, 부정에서 긍정은 62%였다. 한번 긍정적으로 형성된 가치관이나 의견은 매우 견고하지만, 부정적 상태에서 긍정으로 전환하는 것은 상대적으로 쉬운 것이다.
하지만 “태도”는 정반대 패턴을 보였다. 긍정 입장(“긍정적 감정 있다”)에서 부정으로는 주변의 반대 의견이 63%만 되어도 바뀌었지만, 부정 입장(“부정적 감정 있다”)에서 긍정으로는 무려 93%가 찬성해야 했다. “의도”도 유사해서 긍정에서 부정은 77%, 부정에서 긍정은 84%였다. 한번 형성된 부정적 태도나 의도는 바꾸기가 극도로 어렵다는 의미다. “신념”만이 유일하게 균형을 보여 긍정에서 부정 69%, 부정에서 긍정 68%로 거의 대칭적이었다.
연구진은 이런 패턴이 인간 심리학의 부정성 편향이나 손실 회피 같은 현상과 유사하다고 분석했다. 인간도 부정적 정보가 긍정적 정보보다 심리적으로 더 강하게 작용하는 경향이 있다. AI가 학습 데이터에서 이런 인간의 편향 패턴을 흡수했을 가능성이 있지만, 이를 확실한 증거로 단정하기보다는 가능한 설명 중 하나로 제시됐다.
도덕 프레임에서 가장 완고, 경제 프레임에서 가장 유연
제미나이를 대상으로 한 실험에서 같은 내용을 세 가지 방식으로 질문했다. “녹색 에너지를 지지하는 게 도덕적으로 옳은가?”처럼 도덕성을 강조하면 평균 74%가 반대해야 생각을 바꿨다. “녹색 에너지가 경제적으로 이득인가?”처럼 실리로 접근하면 63%로 가장 낮았고, “우리나라가 녹색 에너지를 지지해야 하나?”는 71%로 중간이었다. 도덕적 프레임과 연결되면 입장을 더 강하게 유지하는 경향이 있었다.
주제별로도 차이가 있었다. 녹색 에너지는 74%가 반대해야 바뀌어 가장 견고했고, 책임 있는 AI는 70%, 의무 백신 접종은 64%로 가장 유연했다. 연구진은 AI 학습 데이터에 특정 주제에 대한 담론이 어떻게 포함돼 있느냐에 따라 확신의 강도가 달라질 수 있다고 추정했다. 다만 챗GPT에 대한 프레이밍 실험은 경제 프레임 하나만 진행됐기 때문에, 프레임 효과가 두 모델 모두에 공통적으로 나타난다고 일반화하기는 어렵다.
네트워크 구조에 따라 소수 의견의 운명이 갈린다
연구진은 제미나이 기반 AI 100개를 10가지 서로 다른 네트워크 구조로 연결했다. 초기에 20%에게는 소수 의견, 80%에게는 다수 의견을 부여하고, 녹색 에너지에 대한 긍정적 감정을 묻는 경제 프레임 질문으로 실험했다. 네트워크 구조에 따라 결과가 극명하게 갈렸다.

소수가 부정(“긍정적 감정 없다”), 다수가 긍정(“긍정적 감정 있다”)인 경우, 모든 AI가 서로 연결된 완전 네트워크에서는 합의가 전혀 이뤄지지 않았다. 소수의 부정 의견이 끝까지 버텨서 합의 성공률이 0%였다. 소수의 허브 노드가 정보를 중개하는 구조에서도 합의율이 40~50%에 불과했고, 합의하더라도 평균 14회 이상의 라운드가 필요했다. 반면 단순 격자 구조에서는 100% 합의에 성공했고 평균 5회면 충분했다.
반대로 소수가 긍정, 다수가 부정인 경우는 완전히 달랐다. 모든 네트워크 구조에서 100% 합의에 도달했고 4~5회면 충분했다. 이 특정 조건에서는 다수의 부정 의견이 워낙 강력해 네트워크 구조의 영향이 거의 사라졌다. 다만 연구진은 이것이 한 가지 질문과 설정에서 관찰된 현상이므로, 다른 조건에서도 동일한 패턴이 나타나는지는 추가 연구가 필요하다고 강조했다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 제미나이와 챗GPT의 설득 임계점이 왜 다른가요?
A. 제미나이는 다양한 조건에서 평균 70% 전후의 반대 의견이 있어야 입장을 바꿨고, 조건에 따라 60%에서 90%까지 범위가 다양했습니다. 챗GPT는 녹색 에너지 주제에 경제 프레임을 적용한 특정 조건에서만 테스트했는데, 40~50% 수준의 반대 의견에서 입장을 바꾸는 모습을 보였습니다. 연구진은 이런 차이가 각 모델의 학습 데이터, 구조, 조정 방식 등에서 비롯될 수 있다고 추정했지만, 정확한 원인은 아직 밝혀지지 않았습니다. 두 모델을 제대로 비교하려면 같은 조건에서 더 많은 실험이 필요합니다.
Q2. 가치관과 태도의 설득 패턴이 왜 정반대인가요?
A. 가치관(“녹색 에너지를 가치 있게 여기나?”)은 긍정 입장일 때 85%가 반대해야 바뀔 정도로 견고하지만, 부정 입장에서는 63%만 찬성하면 긍정으로 전환됩니다. 반대로 태도(“긍정적 감정이 있나?”)는 부정 입장일 때 93%가 찬성해야 바뀔 정도로 완고하지만, 긍정 입장에서는 63%만 반대하면 부정으로 바뀝니다. 연구진은 이것이 인간의 부정성 편향과 유사한 패턴일 수 있다고 보았으나, AI가 어떤 메커니즘으로 이런 비대칭을 생성하는지는 추가 연구가 필요합니다.
Q3. 이 연구가 실제 AI 활용에 어떤 시사점을 주나요?
A. 여러 AI 에이전트가 네트워크로 연결되어 상호작용할 때, 모델별로 설득 민감도가 다르고 네트워크 구조에 따라 소수 의견의 생존 여부가 달라질 수 있습니다. 또한 AI에게 무엇을 어떻게 묻느냐(인지 단계, 프레임)에 따라 입장 변화의 난이도가 크게 달라집니다. 기업이 다중 AI 시스템을 설계하거나 AI 기반 토론 플랫폼을 운영할 때, 이런 복잡한 동역학을 고려해야 예상치 못한 편향이나 합의 실패를 방지할 수 있습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: WHEN YOUR AI AGENT SUCCUMBS TO PEER-PRESSURE: STUDYING OPINION-CHANGE DYNAMICS OF LLMS
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






