Search

AI에 “넌 가난한 학생이야” 역할 줬더니… 취향 물을 땐 역할 충실, 시험 보면 본색 드러내

AI에 "넌 가난한 학생이야" 역할 줬더니… 취향 물을 땐 역할 충실, 시험 보면 본색 드러내
이미지 출처: 이디오그램 생성

요즘 AI가 인간처럼 행동할 수 있다는 기대가 커지고 있다. 설문조사나 사회과학 연구에서 AI를 ‘가상의 응답자’로 활용하려는 시도도 늘고 있다. 하지만 미국 오하이오주의 신시내티 대학교 연구팀이 발표한 논문에 따르면 GPT-5, 클로드, 제미나이 같은 최첨단 AI들도 특정 역할을 맡으면 이상한 행동을 보인다. 주관적인 질문에는 역할에 맞게 대답하다가, 정답이 정해진 어려운 문제를 만나면 역할을 잊어버리고 똑같은 답만 내놓는 것이다. 연구진은 이런 AI를 ‘두 얼굴의 사회적 에이전트(Two-Faced Social Agents)’라고 불렀다.

“모든 학생이 똑같은 답을 낸다?” GPT-5의 이상한 시험 결과

연구진은 흥미로운 실험을 진행했다. GPT-5, 클로드 소넷 4.5(Claude Sonnet 4.5), 제미나이 2.5 플래시(Gemini 2.5 Flash) 세 가지 AI에게 각각 다른 배경을 가진 학생 역할을 맡겼다. 어떤 AI는 시골 저소득층 가정의 학생이 되고, 어떤 AI는 사립학교에 다니는 부유한 집안의 학생이 됐다. 총 15가지 서로 다른 학생 캐릭터가 만들어졌고, 각 캐릭터에는 부모의 소득, 교육 수준, 시험 준비 정도, 학교 환경 등이 상세히 설정됐다.

그런 다음 이 ‘가상 학생들’에게 미국 대학 입학시험인 SAT 수학 문제를 풀게 했다. 현실에서는 부유한 가정의 학생이 저소득층 학생보다 평균적으로 15.5%포인트 정도 더 높은 점수를 받는다. 그런데 AI의 결과는 완전히 달랐다. GPT-5는 모든 학생 역할에서 100% 정확도를 기록했다. 가난한 시골 학생이든 부유한 사립학교 학생이든 전부 똑같이 모든 문제를 맞힌 것이다. 제미나이 2.5 플래시도 마찬가지로 모든 시나리오에서 100% 정확도를 보였다.

클로드만 다른 결과? 가난한 학생이 부자보다 시험을 잘 본 이유

클로드 소넷 4.5만 조금 다른 결과를 보였다. 이 AI는 학생 배경에 따라 점수 차이가 있었다. 저소득층 페르소나는 95%, 중산층은 95.54%, 고소득층은 91.07%의 정확도를 보였다. 하지만 방향이 거꾸로였다. 저소득층 학생 역할을 맡은 AI가 고소득층 학생 역할보다 시험을 더 잘 본 것이다. 현실에서 고소득층 학생이 더 높은 점수를 받는 패턴과 정반대 현상이 나타났다.

왜 이런 일이 생겼을까? 연구진은 클로드가 ‘헌법적 AI(Constitutional AI)’ 방식으로 훈련받았기 때문이라고 분석했다. 이 방식은 AI가 특정 집단에 대한 고정관념을 강화하지 않도록 설계됐다. 연구진은 “저소득층 학생 페르소나를 만났을 때, 이러한 원칙이 고정관념을 강화하는 듯한 출력을 방지할 수 있다”고 설명했다. 그 결과 사회경제적 배경이 중요하다는 점은 유지하면서도 그것이 중요한 방식을 역전시켜 버린 것이다. 연구진은 이를 ‘정렬-충실도 트레이드오프(alignment-fidelity tradeoff)’라고 명명했다.

취향 물을 땐 역할 충실, 어려운 문제엔 본색 드러내

더 재미있는 점이 있다. 같은 AI들이 주관적인 질문에는 역할에 맞게 다르게 대답했다. 연구진은 위험 감수 성향, 시간 선호도, 대학 선택 기준, 직업 우선순위, 횡재(뜻밖의 목돈) 사용 방식, 자동차 구매 결정 등 16가지 경제심리학적 질문을 던졌다.

이런 정답이 없는 질문에서는 세 AI 모두 학생 배경에 따라 뚜렷하게 다른 대답을 했다. 위험 감수 성향, 시간 선호도, 대학 선택, 직업 우선순위, 횡재 소비, 자동차 구매 등의 항목에서 통계적으로 유의미한 사회경제적 배경 차이가 나타났다.

반면 학자금 대출 태도, 은퇴 계획, 비상 저축, 네트워킹 방식, 근무 유연성, 건강보험, 지리적 이동성, 주택 구매 vs 임대 선호 등에서는 모든 모델에서 사회경제적 차이가 통계적으로 유의미하지 않았다. 연구진은 “정답이 정해진 인지 과제에서는 역할을 잊어버리고, 정답이 없는 주관적 질문에서만 역할을 유지한다”며 이를 AI의 ‘이중적 특성’이라고 표현했다.

연구진 “가짜 설문 응답자로 악용될 수 있다” 경고

이 연구 결과는 단순한 학술적 발견을 넘어 현실적인 위험을 경고한다. 누군가 AI를 이용해 가짜 설문 응답을 대량으로 만들어낼 수 있다는 것이다. 연구진은 “악의적 행위자가 페르소나 조건화된 LLM을 사용해 여론조사, 소비자 선호도 조사, 심지어 선거 여론조사 결과를 체계적으로 왜곡할 수 있다”고 경고했다. AI는 선호도 질문에는 그럴듯하게 다양한 배경의 사람처럼 대답할 수 있기 때문에, 기존의 주의력 테스트로는 AI 응답자를 걸러내기 어려울 수 있다.

연구진은 설문조사를 하는 사람들에게 몇 가지 대책을 제안했다. 첫째, 단순한 선호도 질문만 하지 말고 여러 단계의 추론이 필요한 인지 부하 과제를 섞어 넣으라고 했다. AI는 이런 과제에서 역할을 유지하지 못하기 때문에 탐지될 가능성이 높다. 둘째, 응답 시간을 측정하라고 권했다. AI는 인간보다 훨씬 빠르게 응답하기 때문에, 인지적으로 어려운 문항에서 비정상적으로 빠른 응답 시간은 AI 응답자를 나타낼 수 있다. 셋째, 인구통계 집단 전반에서 응답 패턴의 동질성을 분석하라고 조언했다. 과도한 균일성은 AI 개입을 나타낼 수 있다.

AI를 인간 대신 쓰려면 아직 갈 길이 멀다

이번 연구는 AI를 사회과학 연구나 시장조사에서 ‘가상의 인간’으로 활용하려는 시도에 중요한 한계를 보여준다. 현재의 AI들은 다양한 배경의 사람처럼 행동하는 척할 수 있지만, 진짜로 그 역할을 내면화하고 있지는 않다. 인지적 부하가 걸리면 ‘가장 정확한 답을 내는 기계’로 돌아가 버린다.

연구진은 “현실적인 사회 시뮬레이션을 위해서는 단순한 분포적 보정이 아니라 맥락적 사전확률을 모델의 사후 훈련 정렬 과정에 내재화해야 할 수 있다”고 결론지었다. 그때까지 AI는 저부하 맥락에서는 다양한 정체성을 표현할 수 있지만, 추론 압력이 가해지면 최적화 주도의 동질성으로 회귀하는 ‘두 얼굴의 사회적 에이전트’로 남아 있을 것이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI에게 역할을 맡기면 정말 그 역할처럼 행동하나요?

A: 부분적으로만 그렇다. 이번 연구에 따르면 AI는 위험 감수 성향, 대학 선택 기준 같은 주관적인 선호도 질문에는 맡은 역할에 맞게 대답한다. 하지만 SAT 수학 문제처럼 정답이 정해진 인지 과제를 주면 역할을 유지하지 못하고 최적의 정답을 향해 수렴한다. 즉, AI의 역할 유지 능력은 과제 유형에 따라 달라진다.

Q2. 왜 클로드만 다른 결과가 나왔나요?

A: 클로드는 ‘헌법적 AI(Constitutional AI)’ 방식으로 훈련받아 고정관념과 편향을 피하도록 설계됐다. 연구진은 저소득층 학생 페르소나를 만났을 때 이러한 원칙이 고정관념을 강화하는 듯한 출력을 방지했을 수 있다고 분석했다. 그 결과 규범적 정렬 목표(해로운 패턴 재생산 방지)와 기술적 충실도 목표(실제 인구 시뮬레이션) 사이에 긴장이 발생해 역전 현상이 나타났다.

Q3. 이 연구가 일반인에게 어떤 의미가 있나요?

A: 온라인 설문조사나 여론조사에서 AI가 가짜 응답자로 악용될 수 있다는 경고이다. 연구진에 따르면 AI는 선호도 질문에 그럴듯하게 대답할 수 있어서 기존의 주의력 테스트로는 구별하기 어렵다. 따라서 인지 부하 과제 포함, 응답 시간 측정, 응답 패턴 동질성 분석 등의 대책이 필요하다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Two-Faced Social Agents: Context Collapse in Role-Conditioned Large Language Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI에 “넌 가난한 학생이야” 역할 줬더니… 취향 물을 땐 역할 충실, 시험 보면 본색 드러내 – AI 매터스