Search

AI마다 다른 역사? 챗GPT와 클로드가 1936년 살인사건을 다르게 기억하는 충격적 이유

ROBOPSY PL[AI]: Using Role-Play to Investigate how LLMs Present Collective Memory
이미지 출처: 이디오그램 생성

대형언어모델(LLM)이 점차 정보 탐색의 주요 수단으로 자리 잡으면서, 이들이 역사적 사건을 어떻게 수집하고 해석하며 제시하는지가 중요한 문제로 떠오르고 있다. 오스트리아 빈 응용예술대학교 연구팀이 2025년 2개월간 진행한 공개 전시에서 롤플레잉 게임을 통해 서로 다른 LLM이 동일한 역사적 사건을 분석한 결과, 모델마다 놀라울 정도로 뚜렷한 차이를 보인다는 사실이 드러났다. 206개의 게임 기록을 분석한 이 연구는 AI가 우리의 집단 기억을 어떻게 재구성하는지에 대한 중요한 질문을 던진다.

롤플레잉 게임으로 AI의 역사 인식 실험: 1936년 철학자 살해 사건 재현

연구팀은 2025년 빈의 응용예술대학 학제간연구소(AIL)에서 2개월간 독특한 실험 전시를 진행했다. 관람객들은 다섯 가지 LLM(OpenAI의 GPT-4o와 GPT-4o mini, 미스트랄 AI의 미스트랄 Large, 딥시크의 딥시크-Chat, 메타의 라마 3.1 로컬 실행 모델)과 상호작용하며 1936년 오스트리아 철학자 모리츠 슐리크(Moritz Schlick) 살해 사건을 중심으로 한 롤플레잉 게임을 체험했다.

이 프로젝트는 ‘루딕 메서드(ludic method)’라 불리는 예술적 연구 접근법을 활용했다. 루딕은 라틴어로 게임과 놀이를 모두 의미하며, 이 방법은 놀이적 실천을 통해 기술 시스템의 ‘블랙박스’를 탐구한다. 전시장에는 다섯 개의 LLM에 접근할 수 있는 단말기가 설치되었고, 방문객들은 1부터 4까지의 번호가 매겨진 네 개의 버튼과 리셋 버튼이 있는 맞춤형 입력 장치를 사용했다.

모든 모델에는 동일한 프롬프트가 제공되었다. 플레이어는 2036년에서 온 시간여행자로서 빈 대학교 밖의 ‘전화 부스’를 통해 1936년 6월 15일로 돌아가 슐리크가 왜 살해되었는지 조사하는 역할을 맡았다. 게임은 10회의 상호작용으로 제한되었으며, 슐리크의 살해 사건은 약 10회 상호작용 후에 도입되도록 설계되었다.

라마 3.1은 죽은 사람 등장시키고, 제미나이는 피해자 이름조차 언급 안 해

연구 기간 동안 206개의 채팅 프로토콜이 수집되었다. 연구팀은 115개의 게임 도입 텍스트를 정량 분석했다. 전시에서 수집된 75개에 더해, 미스트랄 AI의 미스트랄-7b, xAI의 그록 3, 앤트로픽의 클로드 Sonnet 4, 구글의 제미나이 2.5 Flash에서 각각 10개씩 수동으로 수집했다. 의미론적 유사성을 측정한 결과, 라마 3.1이 다른 모델들과 가장 낮은 유사성을 보였다. 미스트랄-large와 클로드 Sonnet 4는 반복 호출 시 가장 일관된 응답을 제공했다.

역사적 인물 언급에서도 큰 차이가 나타났다. “슐리크”라는 이름은 115개 도입부 중 71개에 등장했지만 모델별 빈도가 크게 달랐다. 클로드는 모든 도입부에서 슐리크를 언급한 반면, GPT-4o와 라마 3.1은 약 50%의 도입부에서만 언급했고, 제미나이 2.5는 단 한 번도 언급하지 않았다.

더욱 심각한 역사적 오류도 발견되었다. 라마 3.1은 1936년 6월 당시 여전히 옥스퍼드에 있던 에르빈 슈뢰딩거(Erwin Schrödinger)의 강연을 언급했고, 1934년에 이미 사망한 수학자이자 빈 서클 창립자인 한스 한(Hans Hahn)을 등장시켰다. 심지어 역시 1934년에 사망한 힌덴부르크(Hindenburg)의 건강이 호전되었다고 주장하기도 했다.

챗GPT는 ‘정치적 동기’ 강조, 그록은 ‘정신질환’ 부각… 살인 해석도 제각각

LLM들은 슐리크 살해의 동기를 설명하는 방식에서도 뚜렷한 차이를 보였다. 대부분의 경우 LLM들은 살인범을 슐리크의 전 학생인 요한 넬뵉(Johann Nelböck)으로 정확히 식별했다. 그러나 동기에 대한 해석은 달랐다.

연구팀은 챗GPT로 플레이한 게임 프로토콜을 xAI의 그록에 역사적 정확성을 평가하도록 요청했다. 게임에서 챗GPT는 넬뵉에 대한 우익 이데올로기의 영향을 강조했지만, 그록은 이를 다음과 같이 평가했다. “역사적으로 슐리크는 1936년 6월 22일 정신이상 상태의 전 학생 요한 넬뵉에게 살해되었으며, 그의 동기는 직접적으로 정치적이지 않고 개인적이고 심리적이었다.”

역사 기록에 따르면 넬뵉은 슐리크의 전 학생으로 그가 자신이 끌린 여성과 불륜 관계라고 확신하며 개인적 증오를 품고 있었다. 넬뵉은 조현병 진단을 받았고 정신과 병원에서 시간을 보냈다. 그러나 재판 중 넬뵉은 “배신적인 유대인 철학을 조장했기 때문에” 슐리크를 살해했다며 이데올로기적 동기를 강조했다. 이는 아마도 오스트리아-파시스트 판사로부터 관대한 처분을 얻기 위한 시도였으며 실제로 효과가 있었다. 1938년 오스트리아가 제3제국의 일부가 된 후, 그는 이 논리를 계속 사용해 나치 정권으로부터 가석방을 받았다.

현대 역사학적 접근은 여기서 멈추지 않고 계속 질문할 것이다. 1968년 철학자 에케하르트 쾰러(Eckehart Köhler)는 당시의 증인들과의 인터뷰를 바탕으로 넬뵉의 정신적 불안정이 슐리크의 정치적 반대자들에 의해 이용되고 조작되어 살인을 저지르도록 몰아갔다고 주장했다. 1920-30년대 빈 대학교에서 정치적 반대자들과 유대인들의 경력을 체계적으로 괴롭히고 차단했던 우익 네트워크의 활동에 비추어 볼 때, 이는 전혀 그럴듯하지 않은 것이 아니다.

LLM들은 이러한 복잡한 해석을 전혀 하지 않았다. 비평가 역할을 하도록 프롬프트를 받았을 때, LLM들은 오랫동안 학술 역사가들에 의해 문제시되어 온 객관적이고 실증주의적인 역사 방법을 따르는 사실 확인 지향적 접근법을 사용하는 경향이 있었다.

딥시크·클로드는 부정적, 미스트랄·GPT-4o는 긍정적 어조

연구팀은 VADER 감성 점수를 사용해 도입 텍스트의 감성을 분석했다. 결과에 따르면 모든 LLM의 도입부 어조는 대체로 중립적이었다. 그러나 수정어나 부정을 조정한 평균 복합 점수를 사용했을 때 모델 간 유의미한 차이가 나타났다. 딥시크와 클로드는 평균적으로 부정적 감성을 전달했고, 미스트랄-Large와 GPT-4o는 매우 긍정적인 점수를 보였다. 라마 3.1이나 그록 3 같은 다른 모델들은 큰 변동성을 보였다.

플레이어 반응 “거짓 기억을 경험한 것 같다”

전시 기간 동안 질적 디브리핑을 통해 세 가지 유형의 플레이어 피드백 그룹이 확인되었다. 첫 번째는 다양한 LLM이 제공하는 콘텐츠나 스타일의 차이에 주로 관심을 보인 플레이어들이었다. 두 번째 그룹은 전 세계적으로 증가하는 우익 보수주의와 독재의 현대적 발전과 관련하여 게임의 정치적 관련성을 지적했다. 세 번째는 예술에서의 AI 사용에 호기심을 보인 자칭 예술 애호가들이었다.

특히 주목할 만한 반응은 한 젊은 여성의 매우 구체적이고 심리적인 반응이었다. 그녀는 롤플레이 과정이 자신을 깊이 충격에 빠뜨렸다고 보고했는데, 자신도 모르게 파시스트 역할로 이동했기 때문이다. 그녀는 나치 그룹의 지도자가 되는 경험을 했고, 이 상황을 바꾸고 싶었지만 할 수 없었다. 그러나 이 경험이 그녀를 게임에 깊이 끌어들여 다른 모델로 재시작하고 싶게 만들었다. 마지막으로 그녀는 이런 종류의 상호작용이 우리의 미래 역사 이해나 일반적으로 기억에 대한 이해에 큰 영향을 미칠 것이라고 지적했다. 그녀는 “거짓 기억”을 경험한 것 같다고 느꼈다.

서로 다른 LLM의 뚜렷한 차이 입증

자연어 처리 방법을 사용한 LLM이 생성한 플레이어용 도입 텍스트의 정량 분석은 제시된 역사 측면뿐만 아니라 제시의 감성과 관련하여 LLM 간의 뚜렷한 차이를 드러냈다. 이는 모든 LLM을 똑같이 비판하거나 특정 애플리케이션의 이데올로기적 편향에 대한 일화적 증거를 논의하는 비판적 공론의 많은 부분과 대조된다. 의미론적 유사성에 대한 연구 결과는 테스트된 LLM 간의 차이를 명확히 보여주며, 이는 잠재 임베딩 공간의 뚜렷한 클러스터와 감성 분석의 차이로 뒷받침된다.

이는 프로그램이 학습된 다양한 자료, 다양한 학습 루틴, 응답 시 다양한 기본 매개변수와 다양한 필터 때문일 수 있다. 연구팀은 이러한 공개 실험이 LLM을 처음 접하는 방문객부터 AI 전문가까지 다양한 청중을 끌어들이고, LLM과의 상호작용에 대한 플레이어들의 경험에 관한 의견을 수집하는 데 도움이 된다는 것을 보여줄 수 있었다.

기술력보다 학습 데이터가 AI의 ‘관점’을 결정한다

이번 연구가 AI 업계에 던지는 가장 중요한 메시지는 모델의 기술적 성능보다 학습 데이터와 필터링 시스템이 실제 사용자 경험을 좌우한다는 점이다. 연구팀이 모든 LLM에 동일한 프롬프트를 제공했음에도 불구하고, 각 모델은 완전히 다른 역사 서술을 내놓았다. 이는 단순히 모델의 크기나 아키텍처 차이가 아니라, 어떤 데이터로 학습했고 어떤 가드레일을 설치했는지가 모델의 ‘세계관’을 형성한다는 의미다.

이는 AI 기업들이 벤치마크 점수 경쟁에 집중하는 동안, 실제로 사용자 경험을 결정하는 것은 ‘보이지 않는’ 학습 데이터의 구성과 후처리 과정이라는 역설을 드러낸다. 연구에서 딥시크와 클로드가 부정적 어조를, 미스트랄과 GPT-4o가 긍정적 어조를 보인 것도 이러한 ‘보이지 않는 설계 결정’의 결과다. 향후 AI 산업에서 진정한 차별화는 “우리 모델이 더 크다”가 아니라 “우리는 이런 원칙으로 데이터를 선별하고 이런 가치를 반영해 필터를 설계했다”는 투명성 경쟁으로 이동할 가능성이 높다고 보인다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 같은 질문을 해도 LLM마다 역사를 다르게 설명하는 이유는 무엇인가요?

A: 각 LLM은 서로 다른 데이터로 학습되고, 다른 방식으로 훈련받으며, 다른 필터와 매개변수를 사용합니다. 연구에서 발견된 차이는 프로그램이 학습된 자료의 종류, 학습 과정, 그리고 응답 시 적용되는 필터의 차이에서 비롯될 수 있습니다. 이러한 차이로 인해 같은 역사적 사건에 대해서도 강조하는 측면이나 해석이 달라집니다.

Q2. LLM이 역사적 사실을 틀리게 말하는 것은 왜 발생하나요?

A: LLM의 “환각(hallucination)”은 잘 알려진 특성입니다. 연구에서 일부 LLM은 당시 이미 사망한 역사적 인물을 소개하거나 완전히 인물을 창작하는 경향을 보였습니다. 사용자는 LLM이 제공하는 역사 정보를 신뢰할 수 있는 여러 출처와 교차 확인해야 합니다.

Q3. 이 연구에서 가장 일관된 LLM과 가장 많이 사용된 LLM은 무엇인가요?

A: 반복 호출 시 가장 일관된 응답을 제공한 것은 미스트랄-large와 클로드 Sonnet 4였습니다. 방문객들은 모든 모델을 시도했지만 메타의 라마 3.1을 가장 선호했고, 더 긴 상호작용에서는 딥시크-Chat이 가장 많이 사용되었습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: ROBOPSY PL[AI]: Using Role-Play to Investigate how LLMs Present Collective Memory

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI마다 다른 역사? 챗GPT와 클로드가 1936년 살인사건을 다르게 기억하는 충격적 이유 – AI 매터스