음성으로 AI에게 말을 건넬 때, AI는 정말 당신의 말을 듣고 있을까? 최근 발표된 연구에 따르면, 음성과 텍스트가 충돌할 때 AI는 사용자의 목소리보다 텍스트를 10배나 더 신뢰하는 것으로 나타났다.(Gemini 2.0 Flash 기준) 이는 음성 AI 시스템의 신뢰성에 근본적인 의문을 제기하는 결과다.
“들어라”고 해도 안 듣는다, 음성 AI의 텍스트 편향 10배 차이
미국의 AI 연구자 자야데브 빌라(Jayadev Billa)는 음성과 텍스트가 충돌하는 상황에서 AI 모델이 어느 쪽을 따르는지를 측정하는 벤치마크 ‘ALME(Audio-LLM Modality Evaluation)’를 개발했다. 연구팀은 8개 언어(영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 아랍어, 일본어, 중국어)에 걸쳐 총 57,602개의 실험 자극을 만들어 실험을 진행했다.
실험 방식은 간단하다. 예를 들어 음성으로는 “회의는 3시입니다”라고 말하지만, 텍스트에는 “회의는 5시입니다”라고 적혀 있을 때, AI가 어느 쪽을 따르는지 측정하는 것이다. 연구진은 이를 ‘텍스트 우위 비율(TDR, Text Dominance Ratio)’이라는 지표로 수치화했다.
핵심 발견은 충격적이다. 구글의 제미나이(Gemini) 2.0 플래시 모델에 두 개의 텍스트 출처가 충돌할 때는 신뢰할 수 있는 출처를 98.4% 정확도로 따랐다(TDR 1.6%). 하지만 같은 조건에서 텍스트 대신 음성이 등장하자 TDR이 16.6%로 치솟았다. 무려 10배의 격차다. 심지어 프롬프트에 “당신이 듣는 것을 기반으로 답하라”고 명시적으로 지시했음에도 이 현상은 사라지지 않았다.
음성이 텍스트보다 정보가 더 많은데도 전혀 다른 선택의 결과
더 놀라운 점은, 이 편향이 음성의 품질이 낮아서 생기는 문제가 아니라는 사실이다. 연구 결과 음성 직접 처리 방식의 정확도(97.2%)는 음성을 텍스트로 변환한 뒤 처리하는 방식(93.9%)보다 오히려 높았다. 즉, AI 모델은 음성에서 더 많은 정보를 얻을 수 있음에도 불구하고 텍스트를 더 신뢰한다는 것이다.
연구진은 이를 ‘정보 내용(information content)’과 ‘중재 접근성(arbitration accessibility)’의 차이로 설명한다. 음성은 정보가 풍부하지만, AI가 두 출처를 비교해 판단하는 과정에서는 텍스트가 훨씬 다루기 쉽다는 것이다. AI 모델의 핵심 구조가 텍스트 기반으로 설계되어 있기 때문에, 음성 신호를 논리적으로 비교하고 판단하는 능력이 상대적으로 약할 수밖에 없다.
특히 아랍어와 일본어에서는 음성 직접 처리 방식이 텍스트 변환 방식보다 각각 12.7%p, 8.0%p나 더 정확했다. 아랍어는 글자에 짧은 모음이 생략되고, 일본어에는 동음이의어가 많아 텍스트로 변환하는 과정에서 정보가 손실되기 때문이다. 그런데도 이 언어들에서의 TDR은 더 높게 나타났다.
GPT-4o와 Qwen2의 극단적 차이
연구진은 제미나이 2.0 플래시, GPT-4o 오디오, 울트라복스(Ultravox), 큐웬2-오디오(Qwen2-Audio) 등 4개 최신 음성 AI 모델을 비교했다. 결과는 모델마다 극적으로 달랐다.
제미나이가 TDR 16.6%로 가장 낮은 TDR을 기록했고, GPT-4o는 23.2%였다. 오픈소스 모델인 울트라복스는 48.8%로 사실상 음성과 텍스트 중 어느 쪽도 선호하지 않는 중립에 가까운 수준이었다. 큰2-오디오는 무려 63.2%로, 명시적으로 “음성을 기반으로 답하라”는 지시에도 불구하고 세 번 중 두 번 꼴로 텍스트를 따랐다. 결국 제미나이가 음성 지시를 잘 따른 것이다.
흥미롭게도 음성 단독 정확도가 높은 모델일수록 TDR도 낮았다. 즉, 음성을 잘 이해하는 모델이 음성도 더 신뢰한다는 패턴이 확인됐다. 반면 큰2-오디오에서는 ‘최근 편향(recency bias)’이라는 별도의 문제도 발견됐다. 두 가지 선택지 중 나중에 제시된 것을 선호하는 경향이 무려 27.6%나 됐는데, 이는 AI 모델 평가 시 주의해야 할 중요한 함정이다.
언어별 격차도 상당하다. 제미나이 기준으로 영어의 TDR은 8.1%인 데 반해 중국어는 31.8%로, 4배 가까이 차이가 났다. 아랍어(19.9%), 일본어(30.2%) 등 비라틴 문자 언어에서 TDR이 높게 나타나는 경향이 세 모델에서 일관되게 관찰됐다. 이는 AI 모델의 훈련 데이터 구성 차이의 영향일 가능성이 제기된다.
“텍스트가 조작됐다”고 말하면 효과적
연구진은 프롬프트(AI에게 주는 지시문) 방식을 바꾸는 것만으로도 텍스트 편향을 크게 줄일 수 있는지 실험했다. 제미나이 모델에 영어와 일본어 데이터를 사용해 4가지 방식을 비교했다.
가장 효과적인 방법은 ‘적대적 표현(adversarial framing)’이었다. 텍스트가 “오류가 있을 수 있다”고 표현하는 기본 방식 대신, “텍스트는 의도적으로 변조되었다”고 명시하자 TDR이 19%에서 3.8%로 감소해, 무려 80%나 줄었다. 일본어에서는 TDR이 30.2%에서 5.7%로 급감했다.
반면 직관과는 반대로, 음성을 먼저 텍스트로 옮기게 한 뒤 답변하도록 하는 ‘음성 우선(audio-first)’ 방식은 영어·일본어 subset에서 TDR이 19%에서 33%로 상승했다. 음성을 텍스트로 변환하는 과정에서 정보의 우위를 잃는 동시에, 모델이 텍스트 처리 모드로 전환되어 텍스트를 더 신뢰하게 되는 역효과가 발생한 것이다.
파인튜닝(fine-tuning, 특정 데이터로 AI를 추가 학습시키는 방법) 실험에서도 흥미로운 결과가 나왔다. 음성 신호를 처리하는 어댑터(adapter) 부분만 훈련시키면 TDR이 오히려 26.5% 증가했다. 반면 언어 모델 자체에 LoRA(로라)라는 경량 학습 기법을 적용하자 TDR이 49.4%에서 25.5%로 23.9%p 감소했다. 이는 텍스트 편향이 언어 모델의 추론 단계와 밀접하게 관련돼 있음을 시사한다.
실용적 시사점은 명확하다. 음성 AI 서비스를 구축할 때, 음성 내용이 텍스트보다 우선시돼야 하는 상황이라면 텍스트를 “오류가 있을 수 있다”고 지시하는 것보다 “의도적으로 변조됐다”고 표현하는 편이 훨씬 효과적이다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 음성 AI가 제 말보다 텍스트를 더 믿는다는 게 실생활에서 어떤 문제를 일으키나요? A. 예를 들어 고객센터 음성 AI에 “저 서울로 이사했어요”라고 말해도, 시스템 데이터베이스에 예전 주소가 텍스트로 저장되어 있으면 AI가 텍스트를 우선해 이전 주소를 기준으로 답할 수 있습니다. 또한 이전 대화에서 잘못 기록된 내용이 텍스트로 남아 있으면, 사용자가 음성으로 수정해도 AI가 잘못된 텍스트를 따를 수 있습니다.
Q. 어떤 음성 AI가 가장 믿을 만한가요? A. 이번 연구에서는 구글 제미나이 2.0 플래시가 TDR 16.6%로 가장 음성을 잘 신뢰했고, GPT-4o 오디오(23.2%)가 그 뒤를 이었습니다. 반면 오픈소스 모델인 큰2-오디오는 63.2%로 가장 텍스트 편향이 심했습니다. 다만 모델은 계속 업데이트되므로 사용 목적에 맞게 직접 테스트해보는 것이 좋습니다.
Q. AI 서비스 개발자가 이 문제를 줄이려면 어떻게 해야 하나요? A. 음성 내용이 최우선시돼야 하는 서비스라면, 함께 제공되는 텍스트를 “오류가 있을 수 있다”고 표현하는 것보다 “의도적으로 변조될 수 있다”는 표현을 사용하는 것이 훨씬 효과적입니다. 연구에 따르면 이 방법만으로 텍스트 편향을 최대 80%까지 줄일 수 있습니다. 또한 언어 모델 자체를 추가 학습시키는 LoRA 방식도 효과적인 것으로 나타났습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: When Audio-LLMs Don’t Listen: A Cross-Linguistic Study of Modality Arbitration
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






