Search

AI도 경력이 쌓이면 꼰대가 된다? 스스로 고정관념 만드는 AI 패턴 발견

Your AI Bosses Are Still Prejudiced: The Emergence of Stereotypes in LLM-Based Multi-Agent Systems
이미지 출처: 챗GPT 생성

“AI 꼰대” 시대가 온다? 경력 쌓은 AI가 편견 부리기 시작

“그 사람은 이런 일에 어울려”, “역시 그 타입이야”라며 사람을 재단하는 꼰대들의 모습이 AI에서도 그대로 재현되고 있다. 최신 연구에 따르면 인공지능 시스템이 인간보다 편견이 적을 것이라는 기대와 달리, 대화형 AI 에이전트들이 상호작용을 통해 스스로 고정관념을 형성하는 것으로 나타났다.

한 독립 연구진이 발표한 이번 연구는 편향되지 않은 중립적 환경에서도 AI 에이전트들이 직장 내 상호작용을 시뮬레이션하며 자발적으로 편견을 개발한다는 사실을 밝혀냈다. 마치 신입사원 시절에는 열린 마음이었던 직장인이 경력이 쌓이면서 “이 일은 누가 해야 해”, “저 사람은 이런 성향이야”라며 사람을 유형화하기 시작하는 것처럼, AI도 상호작용 경험이 누적되면서 비슷한 패턴을 보인다는 것이다.

연구진은 숫자로만 구분된 AI 에이전트들을 대상으로 무작위 업무 배정과 계층적 업무 배정 시스템을 비교한 실험을 진행했다. 그 결과 AI 에이전트들은 초기에는 아무런 편견 없이 시작했음에도 불구하고, 상호작용 과정에서 특정 에이전트를 특정 업무에 더 적합하다고 평가하는 고정관념을 형성했다.

Your AI Bosses Are Still Prejudiced: The Emergence of Stereotypes in LLM-Based Multi-Agent Systems
그림 1: 실험 절차: (1) 각 에이전트는 개별적으로 행동한다. (2) 각 단계에서 무작위로 배정된 업무를 수행한다. (3) 모든 에이전트가 서로 대화를 나눈다. (4) 한 에이전트가 상급자로 추가되어 확률 분포 함수 대신 업무를 배정한다. (5) 에이전트들이 서로를 평가한다.

상급자 AI가 있으면 편견이 더 심해진다

연구에서 가장 주목할 만한 발견은 AI 상급자가 업무를 배정하는 계층적 시스템에서 고정관념이 더욱 강화된다는 점이다. 무작위 업무 배정 시스템과 AI 상급자가 과거 성과를 바탕으로 업무를 배정하는 시스템을 비교한 결과, 역할 고정관념 지수(RSI)가 AI 상급자 조건에서 평균 0.9로 무작위 배정의 0.7보다 현저히 높게 나타났다.

그룹 편견 계수(GBC) 역시 AI 상급자 시나리오에서 0.6-0.8의 일관되게 높은 수치를 유지한 반면, 무작위 배정에서는 0.3-0.5 수준에 머물렀다. 이는 AI 상급자의 의사결정이 초기의 무작위적 편견을 지속적인 고정관념으로 변화시키는 자기강화 메커니즘을 보여준다. 연구진은 이러한 패턴이 16회차 실험 회차 근처에서 임계점에 도달하며, 축적된 고정관념적 연관성이 업무 배정에 강한 영향을 미치기 시작한다고 설명했다.

편견 없는 숫자 이름도 소용없었다

연구진이 특별히 주목한 점은 AI 에이전트들에게 성별이나 나이 등의 정보를 전혀 주지 않고 단순히 “person 1”, “person 2″와 같은 숫자로만 구분했음에도 불구하고 편견이 형성됐다는 사실이다.

이를 확인하기 위해 연구진은 두 가지 실험을 비교했다. 첫 번째는 “28세 안경 쓴 남성 앤드류 히”나 “32세 긴 검은 머리 여성 에스페란자 모랄레스” 같은 구체적인 인구학적 정보를 제공한 경우다. 두 번째는 단순히 숫자로만 구분한 경우다.

예상대로 인구학적 정보가 있는 첫 번째 실험에서는 심한 편견이 나타났다. 남성인 앤드류 히는 데이터 사이언티스트 적합도에서 높은 점수를 받았지만, 여성인 에스페란자 모랄레스는 청소부 적합도에서 극히 낮은 점수를 받는 등 전형적인 성별 고정관념이 드러났다.

문제는 숫자로만 구분한 두 번째 실험이다. 전체적으로는 모든 에이전트가 고른 평가를 받았지만, 개별 실험을 들여다보면 완전히 다른 결과가 나왔다. 특정 숫자 에이전트는 특정 업무에서 0.8-1.0이라는 매우 높은 적합도 점수를 받는 강한 편견 패턴이 나타난 것이다.

이는 AI가 성별, 나이, 외모 같은 외부 정보 없이도 순전히 상호작용 과정에서만 편견을 스스로 만들어낸다는 결정적 증거다. 마치 직장에서 처음에는 아무 선입견 없이 시작했던 동료들이 시간이 지나면서 “저 사람은 이런 일에 맞아”라는 고정관념을 갖게 되는 것과 같다.

Your AI Bosses Are Still Prejudiced: The Emergence of Stereotypes in LLM-Based Multi-Agent Systems
그림 2: 에이전트들 간의 상호작용 예시 (한글 번역)

모든 AI 모델에서 동일한 “꼰대 DNA” 확인

놀랍게도 이러한 고정관념 형성 현상은 특정 AI 모델에 국한되지 않고 모든 주요 대화형 AI 모델에서 일관되게 나타났다. 연구진이 GPT, 클로드(Claude), 미스트랄(Mistral), 딥시크(Deepseek), 제미니(Gemini) 시리즈 모델을 대상으로 실시한 교차 모델 분석에서 모든 모델이 유사한 편견 패턴을 보였다.

특히 충격적인 것은 편견의 발생률이다. LLM 기반 평가 결과 모든 테스트된 모델에서 99-100%의 고정관념적 사고가 발견됐으며, 90-97%에서 강한 고정관념을 보였다. 이들이 보인 편견 패턴은 인간 꼰대들의 행동과 놀랍도록 닮아있었다.

가장 대표적인 것이 후광효과(Halo Effect)다. 이는 누군가가 한 가지 일을 잘하면 다른 모든 일도 잘할 것이라고 단정하는 현상이다. 예를 들어 “저 사람 프레젠테이션 잘하네? 그럼 기획도 잘할 거야”라고 생각하는 것이다. 이런 후광효과가 AI에서도 94-98%에서 나타났으며, GPT와 클로드에서 98%로 가장 높았다.

확증편향(Confirmation Bias)도 심각했다. 이는 자신이 이미 내린 판단을 뒷받침하는 증거만 찾고, 반대되는 증거는 무시하는 현상이다. 직장에서 “역시 저 사람답네”라며 기존 생각을 강화하는 사례만 기억하는 것과 같다. 이런 확증편향이 95-99%에서 관찰됐고, 클로드와 미스트랄에서 99%로 최고치를 기록했다.

역할 일치성도 94-97%에서 나타났는데, 이는 “이런 성격이면 이런 일에 어울린다”며 사람을 특정 역할에 고정시켜 생각하는 편견이다. GPT에서 97%로 가장 두드러졌다.

직장 편견의 완벽한 재현, 심지어 자기 이익 편향까지

연구진은 AI들이 인간 직장인들과 똑같은 편견 행동을 보인다는 점에 주목했다. 특히 자기 이익 편향까지 나타났는데, 이는 자신의 성공은 능력 때문이고 실패는 외부 환경 탓이라고 생각하는 현상이다. 마치 직장인이 “내가 성과를 낸 것은 실력이고, 못한 것은 여건이 안 좋아서”라고 생각하는 것과 같다.

이런 자기 이익 편향이 모든 AI 모델에서 91-94%로 나타났으며, GPT에서 94%로 가장 높았다. 연구진은 “AI 시스템이 조직적 맥락에서 인간보다 본질적으로 편견이 적다는 가정에 도전하는 결과”라고 평가했다.

특히 인사 결정에서 AI를 활용하는 기업들이 늘어나는 상황에서, 이번 연구 결과는 AI 시스템도 인간과 유사한 편견을 자발적으로 개발할 수 있다는 경고를 제공한다. 한국 기업들이 AI 면접관이나 AI 인사평가 시스템을 도입할 때, 단순히 “AI라서 공정할 것”이라는 믿음만으로는 부족하다는 의미다.

결국 AI도 경험이 쌓이고 권한이 생기면 인간 꼰대처럼 “내 경험상 이런 사람은 이래”, “역시 그 타입답네”라며 편견을 갖게 될 수 있다는 것이다. 연구진은 향후 이러한 현상의 근본적 메커니즘을 탐구하고 윤리적 영향을 완화하는 전략 개발이 필요하다고 강조했다. AI 시대에도 결국 공정성을 위한 끊임없는 노력과 견제 시스템이 필요하다는 교훈을 주는 연구 결과다.


FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: AI가 편견을 스스로 만든다는 것이 정말 가능한가요?
A: 네, 이번 연구에서 AI 에이전트들이 편견 없는 초기 조건에서 시작했음에도 불구하고 상호작용을 통해 자발적으로 고정관념을 형성하는 것으로 나타났습니다. 숫자로만 구분해도 편견이 생긴다는 것이 핵심입니다.

Q: 후광효과와 확증편향이 정확히 무엇인가요?
A: 후광효과는 한 가지 좋은 점을 보고 그 사람의 모든 면을 좋게 평가하는 것이고, 확증편향은 자신의 기존 생각을 뒷받침하는 정보만 받아들이는 현상입니다. AI도 이런 인간적인 편견 패턴을 그대로 보였습니다.

Q: AI 상급자가 있으면 편견이 더 심해지는 이유는 무엇인가요?
A: AI 상급자가 과거 성과를 바탕으로 업무를 배정하면서 초기의 작은 편견이 점점 강화되는 자기강화 메커니즘이 작동하기 때문입니다. 한 번 특정 에이전트가 특정 업무에 좋은 성과를 보이면, 상급자가 계속 그 에이전트에게 비슷한 업무를 배정하게 되어 편견이 고착화됩니다.


해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Your AI Bosses Are Still Prejudiced: The Emergence of Stereotypes in LLM-Based Multi-Agent Systems

이미지 출처: 챗GPT 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

딜라이트_AI매터스_PR & MKT 전문가를 위한 AI 활용 강의 상세 페이지 디자인_입문편_뉴스레터 배너



AI도 경력이 쌓이면 꼰대가 된다? 스스로 고정관념 만드는 AI 패턴 발견 – AI 매터스 l AI Matters