홍콩 중문 대학교, 미국 존스 홉킨스 대학교, 카네기 멜런 대학교 등 6개 대학 공동연구팀이 챗GPT 같은 AI로 사회 현상을 연구하는 분야에서 체계적인 문제점을 발견했다고 발표했다. 연구팀이 40개 이상의 논문을 분석한 결과, AI 사회 실험이 새로운 연구 방법으로 주목받고 있지만 지금까지 나온 연구 대부분이 신뢰할 만한 결과를 내려면 실험 방법을 대폭 개선해야 한다고 밝혔다. 연구팀은 올바른 AI 사회 실험을 위한 새 기준인 ‘PIMMUR 원칙’도 함께 제시했다.
최신 AI 5종이 실험 목적 절반 이상 알아맞혀
연구팀이 GPT-4o, 구글 제미나이, 클로드, 메타 라마, 중국 콴원 등 최신 AI 모델 5개를 테스트해 보니, 기존 연구의 실험 지시문만 봐도 53.1% 확률로 실험 목적을 정확히 맞혔다. 실험 대상인 AI가 연구자가 무엇을 원하는지 눈치채고 그에 맞춰 행동할 가능성이 높다는 얘기다. 특히 사람보다 AI가 실험 의도를 더 잘 간파하는 것으로 나타났다. 연구팀은 이런 현상을 “실험자가 보인다”는 효과라고 설명했는데, 이는 심리학에서 잘 알려진 현상들과 비슷하다고 했다.

실험 지시문 3분의 2가 AI를 특정 방향으로 유도
AI 모델 5개로 기존 연구 32개의 실험 방법을 분석해 보니, 64.4%의 실험 지시문이 AI를 특정 방향으로 유도하는 것으로 드러났다. 가짜 뉴스 연구에서 “사람들은 자신의 생각과 맞는 정보만 믿는 경향이 있으니, 당신도 그렇게 해야 한다”고 직접 알려준 경우가 대표적이다. 사회적 관계 실험에서도 “적의 적은 친구”라는 유명한 이론을 AI가 쉽게 알아볼 수 있게 만들어놨다. 연구팀은 이런 문제점들을 개별 AI 설계 문제와 전체 실험 설계 문제로 나누어 정리했다.
연구팀이 제시한 ‘PIMMUR 원칙’ 6가지
연구팀은 신뢰할 만한 AI 사회 실험을 위한 6가지 기준을 ‘PIMMUR 원칙’으로 정리했다.
프로필(Profile): AI마다 서로 다른 성격, 배경, 인지 스타일을 부여해 동질적인 복제가 아닌 이질적인 개체들로 구성해야 한다.
상호작용(Interaction): AI들이 메시지를 주고받거나 환경 변화를 통해 서로 영향을 미쳐야 하며, 단순히 외부에서 주입한 통계 정보에만 반응해서는 안 된다.
메모리(Memory): AI가 시간이 지나도 정보를 저장하고 업데이트할 수 있어야 하며, 단순 반복이 아닌 내재화된 정보를 바탕으로 행동해야 한다.
최소 통제(Minimal-Control): 실험 지시문에서 과도한 힌트나 유도를 제거하고, 인식·행동·소통에 필요한 최소한의 정보만 제공해야 한다.
무인식(Unawareness): AI가 실험 가설이나 설계, 평가 기준을 모르게 해서 메타 인식으로 인한 편향을 막아야 한다.
현실성(Realism): 단순한 이론 모델이 아닌 실제 인간 사회의 경험 데이터를 참고 기준으로 사용해야 한다.

새로운 기준으로 다시 해보니 결과가 완전히 달라져
연구팀이 AI들에게 서로 다른 성격을 부여하고 실제로 대화를 나누게 하는 새로운 방법으로 대표적인 실험 5가지를 다시 해봤더니, 기존 연구와 판이한 결과가 나왔다. 편견을 보이는 AI 비율이 56.1%에서 32.8%로 줄어들었고, 사회적 관계에서 균형을 이루는 경우도 60.7%에서 10.9%로 크게 떨어졌다.
전화 릴레이 게임 실험에서는 “정확하게 전달하라”는 지시만 빼도 정보가 훨씬 많이 왜곡됐다. 소셜네트워크 성장 실험에서는 기존 연구의 이름 선호 문제를 해결하자 실제 트위터 데이터와 더 비슷한 결과를 얻었다. 집단 따라 하기 실험에서는 다른 사람의 선택을 직접 알려주는 대신 토론을 통해 추측하게 했더니 AI가 다른 의견에 휩쓸리는 정도가 현저히 줄어들었다.
검토한 논문 중 새 기준을 모두 충족하는 연구는 4개뿐
AI 사회 실험 관련 논문 41개를 살펴본 결과, 연구팀이 새로 제시한 6가지 기준을 모두 충족하는 연구는 고작 4개였다. 나머지 대부분은 AI들끼리 제대로 소통하지 않거나, 이전 정보를 기억하지 못하거나, 연구자가 원하는 방향으로 과도하게 유도하는 등의 문제를 안고 있었다. 제대로 된 연구 4개는 모두 실제와 비슷한 대규모 환경에서 다양한 행동이 가능하게 만들어 개별 AI가 실험 목적을 눈치채기 어렵게 설계한 연구들이었다.
AI 사회 시뮬레이션 연구, 방법론적 엄격성이 핵심 과제로 부상
이번 연구는 AI 기반 사회 시뮬레이션 분야가 직면한 근본적인 도전을 보여준다. 연구 결과에 따르면 AI 모델의 성능이 향상될수록 실험 설계의 허점을 간파하는 능력도 함께 높아지는 양상을 보인다. 이는 단순히 더 좋은 AI 모델을 사용하는 것만으로는 신뢰할 만한 사회 실험 결과를 얻기 어렵다는 점을 시사한다.
특히 주목할 점은 기존 연구들이 대부분 PIMMUR 원칙을 충족하지 못했다는 사실이다. 이는 해당 분야가 아직 초기 단계에 있으며, 표준화된 방법론이 정립되지 않았음을 보여준다. 앞으로 AI 사회 시뮬레이션을 활용한 연구가 학술 가치를 인정받으려면 실험 설계 단계부터 더욱 정교한 접근이 필요할 것으로 보인다. 연구팀이 제시한 PIMMUR 같은 체계적 기준이 관련 연구의 품질 향상에 기여할 수 있을지 지켜볼 필요가 있다.
이런 방법론적 개선 요구는 결국 AI 기반 사회 연구의 신뢰성을 높이는 방향으로 이어질 것이며, 이 분야가 성숙한 학문 영역으로 발전하는 데 중요한 전환점이 될 수 있다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: PIMMUR 원칙이 뭔가요?
A: AI 사회 실험을 제대로 하기 위한 6가지 기본 원칙입니다. AI마다 다른 성격을 주고, 서로 실제로 대화하게 하고, 이전 대화를 기억하게 하고, 연구자가 답을 미리 알려주지 않고, AI가 실험 목적을 모르게 하고, 실제 사람 데이터와 비교해야 한다는 내용입니다.
Q: 기존 연구들은 구체적으로 뭐가 문제였나요?
A: AI들이 모두 비슷비슷하고, 진짜 대화는 안 하고 혼자 생각만 하고, 이전 일은 기억 못 하고, 연구자가 어떻게 행동하라고 너무 구체적으로 지시하고, AI가 실험 의도를 쉽게 간파할 수 있고, 실제 사람 데이터 대신 간단한 이론 모델만 갖다 쓴다는 문제가 있었습니다.
Q: 이 연구가 왜 중요한가요?
A: AI로 하는 사회 실험의 신뢰도가 AI 성능뿐 아니라 실험 방법에도 크게 좌우된다는 걸 보여줍니다. AI와 사회과학 연구에서 더 믿을 만한 결과를 얻으려면 이런 엄격한 기준을 널리 사용해야 하고, 이게 관련 연구의 품질을 높이는 데 도움이 될 겁니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: The PIMMUR Principles: Ensuring Validity in Collective Behavior of LLM Societies
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.