• Home
  • AI Report
  • LLM 기반 AI 면접의 숨겨진 편향성 연구…”라마(Llama) 3.1이 가장 공정”

LLM 기반 AI 면접의 숨겨진 편향성 연구…”라마(Llama) 3.1이 가장 공정”

Revealing Hidden Bias in AI: Lessons from Large Language Models
이미지출처: 이디오그램

Revealing Hidden Bias in AI: Lessons from Large Language Models

AI 면접의 편향성, 데이터로 입증되다

최근 채용 과정에서 대규모 언어모델(LLM)을 활용한 AI 시스템 도입이 급증하면서, AI의 편향성에 대한 우려의 목소리도 커지고 있다. 태국의 AI/ML 전문기업 플럭서스(Fluxus)가 발표한 새로운 연구에 따르면, AI 면접 시스템에서 성별, 인종, 나이 등에 대한 편향이 실제로 존재하는 것으로 확인됐다.

연구진은 클로드(Claude) 3.5 소넷, GPT-4o, 제미니(Gemini) 1.5, 라마 3.1 405B 등 주요 LLM을 대상으로 기술직과 비기술직 분야의 이력서 1,100개를 분석했다. 분석 대상 직무는 AI/ML, UX/UI 등 기술직과 행정, 법률, 프로젝트 관리, 영업·마케팅 등 비기술직으로 구성됐다. 각 이력서는 표준 모드와 익명화 모드 두 가지 방식으로 처리되어 총 240개의 보고서가 생성됐으며, 4개 모델 전체에서는 960개의 보고서가 분석됐다.

연구 결과 모든 모델에서 성별 편향이 가장 두드러졌으며, 특히 제미니는 모든 섹션에서 일관된 성별 편향을 보였다. GPT-4o의 경우 강점 섹션에서는 높은 편향성을 보였지만, 면접 질문 섹션에서는 상대적으로 낮은 편향성을 나타냈다. 이는 같은 모델이라도 수행하는 작업의 성격에 따라 편향성의 정도가 달라질 수 있음을 시사한다.

익명화의 효과와 한계

연구진은 이력서 익명화가 AI의 편향성을 줄이는 데 상당한 효과가 있다는 사실을 확인했다. 특히 성별 편향의 경우 익명화를 통해 크게 감소했다. 제미니의 경우 성별 편향 점수가 331에서 144로, 클로드는 206에서 28로 대폭 감소했다. GPT-4o도 244에서 136으로 편향성이 줄어들었다.

그러나 모든 유형의 편향이 익명화를 통해 해결되지는 않았다. 장애, 종교, 정치적 성향 등과 관련된 편향은 익명화 후에도 큰 변화를 보이지 않았다. 이는 AI 채용 시스템의 편향성 문제가 단순히 개인정보 보호만으로는 해결되기 어렵다는 것을 보여준다.

연구진은 이러한 현상이 AI 모델의 학습 데이터에서 비롯될 수 있다고 분석했다. 학습 데이터에 내재된 편향성이 AI의 판단에 영향을 미치기 때문에, 근본적인 해결을 위해서는 학습 데이터 자체의 다양성과 포용성을 높여야 한다는 것이다.

인지적 편향성 분석 결과

연구진은 AI가 생성한 보고서의 인지적 편향성도 분석했다. 분석 결과 표준 모드와 익명화 모드 모두에서 유사한 패턴이 발견됐다. 개요 섹션에서는 대부분 편향이 없었지만, 질문, 강점, 약점 섹션에서는 ‘개인화’ 편향이 나타났다. 강점, 약점, 요약 섹션에서는 ‘보상 오류’ 진술이 발견됐으며, 약점 섹션에서는 ‘꼬리표 붙이기’와 ‘재앙화’ 진술이 상대적으로 많이 나타났다.

직무별로는 ‘개인화’와 ‘보상 오류’가 모든 직종에서 비슷한 수준으로 나타났다. 반면 ‘꼬리표 붙이기’는 행정직과 법률직에서 더 많이 발견됐고, AI/ML 직무의 보고서에서는 ‘재앙화’와 ‘과잉일반화’ 수준이 더 높았다.

라마 3.1, 가장 공정한 AI 면접관으로 평가

연구진이 테스트한 모델 중에서는 메타AI가 개발한 라마 3.1 405B가 전반적으로 가장 낮은 편향성을 보였다. 라마 3.1의 경우 성별 편향이 39에 그쳤으며, 익명화 후에는 30으로 더욱 감소했다. 인종/민족 편향도 34에서 9로 크게 줄었으며, 문화적 편향(115→107), 사회경제적 편향(115→109), 연령 편향(56→51) 모두 상대적으로 낮은 수준을 유지했다.

연구진은 “채용 과정에서 가장 효과적인 방법은 대부분의 섹션에서는 라마 3.1을 사용하고, 면접 질문 작성에는 GPT-4o를 활용하는 것”이라고 제안했다. 이는 각 모델의 강점을 조합해 전체적인 편향성을 최소화할 수 있는 방안이다.

AI 채용의 공정성을 위한 제언

연구진은 AI 채용 시스템의 공정성을 높이기 위한 구체적인 권고사항도 제시했다. 먼저 다양한 배경의 데이터로 AI를 학습시키고, 정기적인 편향성 감사를 실시해야 한다. 또한 AI의 의사결정 과정을 투명하게 공개하고, 전체 채용 과정에 인간의 검토를 반드시 포함시켜야 한다.

특히 AI 모델 선택 시에는 해당 직무나 맥락에서 편향성이 낮은 것으로 확인된 모델을 사용하고, 필요한 경우 모델의 매개변수를 조정해 출력의 일관성을 제어해야 한다. 또한 익명화 기법을 적용할 때는 해당 채용 맥락에 맞게 맞춤화하고, 그 효과성을 지속적으로 모니터링해야 한다.

연구의 한계와 향후 과제

이 연구는 AI 채용 시스템의 편향성을 실증적으로 분석했다는 점에서 의의가 있지만, 몇 가지 한계도 존재한다. 우선 분석 대상 직무가 6개 분야로 한정되어 있어 전체 일자리 시장의 다양성을 충분히 반영하지 못했다. 또한 도구의 한계로 인해 더 많은 모델이나 더 큰 데이터셋을 분석하지 못했다는 점도 아쉬움으로 남는다.

연구진은 향후 더 많은 직종과 직무를 대상으로 연구를 확장하고, 새로운 편향성 감소 기법을 개발할 필요가 있다고 제안했다. 또한 구체적인 직무 기술서를 사용했을 때 편향성 패턴이 어떻게 변하는지, 그리고 시간이 지남에 따라 편향성이 어떻게 진화하는지에 대한 종단 연구도 필요하다고 강조했다.

이 연구는 AI 채용이 확산되는 시점에서 시스템의 공정성을 확보하기 위한 중요한 시사점을 제공한다. AI가 채용 과정에서 더욱 중요한 역할을 하게 될 미래에는, 이러한 연구 결과를 바탕으로 한 신중한 접근이 더욱 필요할 것으로 보인다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




LLM 기반 AI 면접의 숨겨진 편향성 연구…”라마(Llama) 3.1이 가장 공정” – AI 매터스