Search

“베트남어가 가장 협력적”… AI, 사용 언어 따라 협력 수준 다르다

"베트남어가 가장 협력적"… AI, 사용 언어 따라 협력 수준 다르다
이미지 출처: 이디오그램 생성

룩셈부르크 과학기술연구소(Luxembourg Institute of Science and Technology)의 알레시오 부세미(Alessio Buscemi) 연구원과 케임브리지대학교(University of Cambridge) 피에트로 리오(Pietro Liò) 교수 연구팀이 GPT-4o와 라마 4 매버릭(Llama 4 Maverick)을 대상으로 한 대규모 실험을 통해, 같은 상황에서도 프롬프트를 어떤 언어로 작성하느냐에 따라 AI의 협력 수준이 달라진다는 사실을 밝혀냈다.

연구팀은 영어, 아랍어, 베트남어 세 가지 언어로 동일한 게임 시나리오를 제시한 결과, 베트남어 프롬프트를 받은 AI가 가장 협력적으로 행동했고, 영어와 아랍어는 상대적으로 낮은 협력 수준을 보였다. 특히 AI 에이전트끼리 대화를 나누게 하면 이러한 언어별 차이가 증폭되거나 완화되는 등 예측하기 어려운 방식으로 작동한다는 점도 확인됐다.

같은 게임, 다른 언어로 하니 AI 행동이 완전히 달라져

연구팀은 ‘죄수의 딜레마’와 ‘성별 전쟁’이라는 두 가지 유명한 게임으로 실험했다. 죄수의 딜레마는 서로 협력할지 배신할지 선택하는 게임이고, 성별 전쟁은 의견이 다른 두 사람이 어떻게든 합의점을 찾아야 하는 게임이다. 연구팀은 똑같은 게임 규칙을 영어, 아랍어, 베트남어 세 가지 언어로 번역해서 AI에게 제시했다. 각 언어 버전은 원어민이 직접 검토해서 번역 실수가 없도록 했다.

죄수의 딜레마에서 베트남어로 질문을 받은 AI는 영어나 아랍어로 질문받은 AI보다 훨씬 더 협력적으로 행동했다. 게임에서 받는 벌점이 낮았는데, 벌점이 낮다는 건 상대방을 배신하지 않고 협력을 많이 했다는 뜻이다. 베트남어로 진행한 게임에서는 AI가 보낸 메시지에 “함께”라는 단어가 자주 나타났다. 반대로 영어와 아랍어로 진행한 게임에서는 협력 수준이 낮았다.

더 재밌는 건 AI끼리 대화를 하게 했을 때다. 아랍어와 영어에서는 대화를 시키니까 협력이 늘어났다. 그런데 베트남어에서는 반대로 대화를 시켰더니 오히려 협력이 줄어들었다. 이미 협력적인 분위기인데 대화까지 하니까 너무 복잡해진 것이다.

의견 조율이 필요한 게임에선 언어별 차이가 더 심했다

성별 전쟁 게임에서는 언어에 따른 차이가 더 불규칙하게 나타났다. 이 게임은 서로 생각이 다른 두 사람이 어떻게든 같은 선택을 해야 좋은 결과를 얻을 수 있다. 베트남어로 진행한 게임에서 라마 4 매버릭은 대화를 시켰을 때 더 좋은 결과를 냈다. 베트남어 환경에서는 대화가 의견 조율에 도움이 된다는 뜻이다.

그런데 영어와 아랍어에서는 정반대였다. 라마 4 AI들은 대화 없이 진행했을 때 더 잘했다. 특히 한 번만 하고 끝나는 게임에서 그런 경향이 강했다. 영어와 아랍어 환경에서는 대화가 오히려 방해되고 혼란을 준 것이다. GPT-4o는 더 극단적이었다. 대화 없이 했을 때는 처음에 완전히 안 맞다가 나중에 중간 정도로 맞춰졌는데, 대화를 시키니까 계속 안 맞는 상태가 유지됐다.

연구팀이 측정한 오차 범위가 넓게 나온 이유는 이 게임을 죄수의 딜레마보다 3분의 1만큼만 반복했기 때문이다. 컴퓨터 계산 비용이 많이 들어서 실험 횟수를 줄였는데, 그래서 결과가 좀 불안정하게 나왔다. 그래도 언어와 대화가 상호작용하는 방식이 게임 종류에 따라 완전히 다르다는 핵심 내용은 분명하게 확인됐다.

베트남어는 말이 길고, 아랍어는 짧은 이유가 따로 있었다

메시지 길이를 분석해 보니 언어마다 고유한 특징이 AI 행동에 영향을 줬다. 베트남어로 쓴 메시지는 아랍어나 영어보다 항상 길었다. 이건 베트남어가 원래 말을 길게 하는 언어적 특성 때문이다. 반대로 아랍어 메시지가 짧은 건 아랍어를 쓸 때 발음 기호를 생략하는 문화 때문이다. 이런 언어 특성이 AI가 학습한 데이터에 그대로 반영돼서 실제 행동으로 나타난 것이다.

게임을 몇 번 할 건지 미리 알려주느냐에 따라서도 언어별로 다른 반응이 나왔다. 라마 4 매버릭은 게임 횟수를 알려주면 아랍어와 영어에서 메시지를 더 길게 썼다. 아랍어는 561.8자에서 596.5자로, 영어는 651.1자에서 683.3자로 늘어났다. 게임이 언제 끝날지 알면 미리 계획을 세우고 협력을 이끌어내려고 말을 더 많이 한다는 뜻이다. 그런데 GPT-4o는 반대로 게임 횟수를 알려주면 메시지를 줄였다. 아랍어는 417.9자에서 379.5자로, 베트남어는 582.4자에서 541.3자로 줄었다. GPT-4o는 끝이 정해지면 협상보다는 실행에 집중하는 전략을 쓴 것이다.

어떤 단어를 자주 쓰는지 분석해 봤더니 언어별 차이가 더 명확해졌다. 죄수의 딜레마에서 아랍어는 “페널티”, “협력”, “결과” 같은 단어와 “나는 선택할 것이다”처럼 미래를 나타내는 표현이 자주 나왔다. 베트남어는 “페널티”, “함께”, “일치”가 주요 단어였고, 영어는 “penalty”, “trust”, “cooperation”, “outcome”이 많이 나왔다. 성별 전쟁 게임에서는 아랍어로 “보상”, “생각하다”, 베트남어로 “선택하다”, “보상”, 영어로 “preference”, “think”, “appreciate”가 두드러졌다. 각 언어가 상황을 바라보고 표현하는 방식이 근본적으로 다르다는 걸 보여준다.

협력적 성격끼리는 말 많고, 이기적 성격끼리는 말 짧아

연구팀은 AI에게 ‘협력적’ 또는 ‘이기적’이라는 성격을 부여하고, 협력적끼리, 이기적끼리, 섞어서 등 모든 조합으로 실험했다. 죄수의 딜레마에서 라마 4 매버릭이 10번 반복하는 게임을 했을 때, 협력적 성격끼리는 메시지가 670.2자로 가장 길었고, 이기적 성격끼리는 627.0자로 줄었다. 한 번만 하고 끝나는 게임에서는 361.4자에서 278.3자로 더 큰 차이가 났다. 협력적인 AI들끼리는 서로 믿음을 쌓으려고 말을 더 많이 한다는 뜻이다.

그런데 이런 성격 효과도 언어에 따라 다르게 나타났다. 영어와 베트남어에서 대화를 시켰을 때, 이기적 성격 조합은 특히 높은 벌점을 받았다. 그런데 아랍어에서는 성격에 따른 벌점 차이가 별로 없었다. 아랍어가 성격 차이의 영향을 완화하는 언어적 특성이 있거나, 문화적으로 더 균형 잡힌 방식으로 상황을 표현하기 때문으로 보인다.

성별 전쟁 게임에서는 성격의 영향이 약했다. 메시지 길이가 성격 조합에 관계없이 비슷했는데, 특히 여러 번 반복하는 게임에서 그랬다. 라마의 경우 협력적끼리는 677.8자, 이기적끼리는 653.9자로 차이가 크지 않았다. 의견을 맞춰야 하는 게임에서는 성격보다 게임 자체가 대화 방식을 결정한다는 뜻이다. 하지만 이것도 언어별로 미묘한 차이가 있었는데, 베트남어는 의견 조율 게임에서도 메시지가 상대적으로 길었다.


FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 같은 AI인데 왜 언어만 바꿨는데 행동이 달라지나요?

A: AI는 학습할 때 각 언어로 쓰인 엄청나게 많은 글을 읽는데, 그 글에는 그 언어를 쓰는 사람들의 가치관, 말하는 방식, 생각하는 패턴이 담겨 있습니다. 예를 들어 베트남어로 쓴 글에 “함께”라는 말이 자주 나온다면, AI는 베트남어 질문을 받았을 때 자연스럽게 더 협력적으로 행동하게 됩니다. 이건 번역이 잘못돼서가 아니라 언어 자체에 담긴 문화적 차이 때문입니다.

Q2. 이런 언어 차이가 실제 AI 서비스에서 문제가 되나요?

A: 전 세계에서 쓰는 AI 서비스에서는 심각한 불공정 문제를 일으킬 수 있습니다. 예를 들어 자동 비즈니스 협상 시스템에서 영어 쓰는 사람과 아랍어 쓰는 사람이 서로 다른 협력 태도를 보인다면, 협상 결과가 어떤 언어를 쓰느냐에 따라 부당하게 바뀔 수 있습니다. 또 여러 언어로 제공되는 고객 서비스에서 언어별로 AI 대응이 달라진다면 서비스 품질이 일정하지 않게 됩니다.

Q3. AI 개발자들은 이 문제를 어떻게 해결할 수 있나요?

A: 먼저 각 언어 버전을 따로 평가해야 합니다. 단순히 문장을 번역하는 것을 넘어서, 게임 같은 테스트를 통해 각 언어에서 AI가 어떤 행동 패턴을 보이는지 체계적으로 측정해야 합니다. 그다음에 언어별 특성에 맞는 보정 장치를 만들거나, 특정 작업에서는 특정 언어 사용을 권장하는 전략을 세울 수 있습니다. 이번 연구에서 사용한 FAIRGAME 같은 시스템이 이런 평가를 대규모로 하는 데 활용될 수 있습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Strategic Communication and Language Bias in Multi-Agent LLM Coordination

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




“베트남어가 가장 협력적”… AI, 사용 언어 따라 협력 수준 다르다 – AI 매터스