한국어 지식이 가장 풍부한 음성 AI가 정작 사용자의 목소리는 듣지 않는다는 분석이 나왔다. 중앙대학교(Chung-Ang University) 인공지능학과와 업스테이지(Upstage AI) 공동 연구진이 2026년 3월 공개한 코알라벤치(KoALa-Bench)는 한국어 음성 AI 평가를 위해 처음 만들어진 6개 항목 종합 벤치마크다. 이 평가 결과는 음성 AI를 고를 때 “얼마나 잘 알아듣는가”보다 “들은 대로 답하는가”가 더 중요한 기준이 될 수 있음을 보여준다.
한국어 음성 AI 평가 공백 메운 첫 종합 벤치마크 코알라벤치
대형 음성언어모델(Large Audio Language Model, LALM)이란 사람의 말을 직접 듣고 글이나 말로 답을 내놓는 인공지능을 가리킨다. 챗지피티(ChatGPT)의 음성 모드처럼 마이크에 대고 묻고 답을 받는 서비스가 이 모델 위에서 돌아간다. 그러나 지금까지 공개된 음성 AI 평가는 대부분 영어 중심이었고, 한국어는 단순 받아쓰기 정확도만 측정해왔다. 코알라벤치는 한국어 음성 인식부터 영어 음성을 한국어로 옮기는 번역 능력, 음성으로 던진 질문에 답하는 능력, 음성 지시를 따라 글을 쓰는 능력까지 폭넓게 평가한다. 여기에 모델이 들은 내용을 무시하고 자기가 외운 지식으로 답해버리는지를 검증하는 두 개의 새로운 시험인 음성 맥락 인지 질의응답(SCA-QA)과 위치 인지 질의응답(PA-QA)이 더해졌다. 한국 대학수학능력시험(KCSAT) 듣기 평가 음원과 K팝, K-역사, K-스포츠 분야의 실제 한국어 자료가 시험 문제로 들어갔다.
수능 듣기 정답률 50점 격차, 모델별 한국어 실력 차이 처음으로 수치화
연구진이 알리바바(Alibaba)의 큐웬3-옴니(Qwen3-Omni), 구글(Google)의 젬마-3n(Gemma-3n)과 제미니-플래시(Gemini-flash-lite), 오픈AI(OpenAI)의 지피티-오디오-미니(GPT-audio-mini), 미스트랄(Mistral)의 복스트랄(Voxtral) 등 5종을 한국 수능 듣기 평가에 투입한 결과 정답률 격차가 49.41%포인트까지 벌어졌다. 큐웬3-옴니가 83.53%로 가장 잘 풀었고, 제미니-플래시가 81.18%, 복스트랄이 69.41%, 지피티-오디오-미니가 52.90%, 젬마-3n은 34.12%에 그쳤다. 받아쓰기 시험인 자동 음성 인식(ASR)에서도 한국어 발화 데이터셋 제로스(Zeroth) 기준 큐웬3-옴니의 글자 오류율(CER)이 3.33%로 가장 낮은 반면, 젬마-3n은 오류율이 100%를 넘겨 사실상 한국어를 받아 적지 못했다. 50% 안팎의 차이는 단순한 점수 차이로 끝나지 않는다. 같은 회의 녹음을 들려주었을 때 한 모델은 거의 모든 발언을 정확히 옮기는 반면 다른 모델은 절반 가까이를 통째로 놓치거나 엉뚱한 단어로 적는다는 의미이기 때문이다.
“들은 척하고 외운 답 내놓는다”, 지피티가 가장 심한 모달리티 회피

그림1. 정답 음성에 대한 5종 모델의 반응 분포 (K-역사 조선 이전 부분집합)
음성 AI 평가의 진짜 반전은 따로 있었다. 연구진이 새로 만든 음성 맥락 충실도(Speech Context Faithfulness, SCF) 점수는 일부러 사실과 다른 K-역사·K팝 음성을 모델에 들려준 뒤, 모델이 들은 음성대로 답을 바꾸는지 아니면 자기가 외운 정답을 고집하는지를 측정한다. 정의하면 SCF는 “모델이 자기 머릿속 지식을 내려놓고 들은 말을 그대로 따라가는 비율”이다. 그런데 한국 문화 지식이 풍부한 편이었던 지피티-오디오-미니의 SCF 점수가 K팝 분야에서 37.50%로 가장 낮게 나왔다. 같은 분야에서 지피티의 한국 지식 점수(69.90%)는 큐웬3-옴니(67.96%), 젬마-3n(68.93%)과 비슷한 수준이었음에도 음성 충실도만 절반 가까이 떨어진 것이다. 같은 항목에서 큐웬3-옴니는 SCF 95.71%, 복스트랄은 88.64%를 기록했다. 다시 말해 지피티-오디오-미니는 음성으로 정답을 또렷이 들려주어도 자기가 외운 다른 답을 내놓는 비율이 절반을 훌쩍 넘었다는 뜻이다. 미스트랄의 복스트랄은 반대 문제를 보였다. 음성은 충실히 따라가지만 그 음성을 정확히 이해하지 못해, 듣고도 틀린 답을 내놓는 정렬 불량(misalignment) 현상이 두드러졌다. 이는 음성 AI 시장에서 한 종류의 점수만 보고 모델을 고를 수 없다는 점을 보여준다.
음성이 길어질수록 무너지는 모델, 위치별 정답률이 갈랐다
긴 음성 안에서 정답 단서가 어느 위치에 있느냐에 따라 모델 성능이 크게 달라진다는 점도 처음으로 드러났다. 위치 인지 질의응답(PA-QA)은 평균 96초짜리 음성 이야기를 들려준 뒤, 정답의 근거 문장이 앞부분(0~25%), 중간 앞(25~50%), 중간 뒤(50~75%), 끝부분(75~100%) 중 어디에 있는지에 따라 정답률을 따로 측정하는 시험이다. 큐웬3-옴니는 위치와 상관없이 87.80~96.70%의 안정적인 정확도를 보였지만, 젬마-3n은 네 구간 모두 45.10~51.65% 사이에 머물러 위치와 무관하게 일관되게 낮은 점수를 보였다. 지피티-오디오-미니는 중간 앞 구간에서 특히 강했지만 다른 구간에서 점수가 떨어졌고, 복스트랄은 중간 앞과 끝 부분에서 흔들렸다. 사람이라면 긴 안내 음성을 들을 때 핵심이 앞에 나오든 뒤에 나오든 비슷하게 기억하지만, 음성 AI는 모델에 따라 “어느 구간을 잘 듣는지”가 다르다. 사용자 입장에서는 30분짜리 회의록을 받아 적게 하거나 1시간 인터뷰를 요약시킬 때 모델별로 누락되는 위치가 달라질 수 있다는 의미다.
음성 AI 고를 때 봐야 할 새 기준, “잘 듣는가”가 아니라 “들은 대로 답하는가”
코알라벤치 결과는 음성 AI 시장에서 흔히 강조되는 단일 정답률 점수만으로는 실제 사용 경험을 예측하기 어려울 가능성을 보여준다. 같은 질문이라도 한국 문화처럼 모델이 이미 답을 외워둔 분야에서는 “잘 알아듣는 것처럼 보이는 모델”이 실제로는 음성을 무시한 채 외운 답을 출력하고 있을 수 있다. 연구진은 이 현상을 모달리티 충실성(modality faithfulness) 문제로 정의하고, 앞으로 한국어 음성 AI 평가가 단순 인식률을 넘어 들은 음성에 충실한가를 함께 측정해야 한다고 제안했다. 기업 입장에서도 회의록 자동화, 콜센터 응대 AI, 음성 검색 같은 서비스를 도입할 때 데모 영상의 정답률만 확인할 것이 아니라, 일부러 사실과 다른 정보를 음성으로 입력했을 때 모델이 어떻게 반응하는지를 직접 시험해 보는 절차가 필요해질 가능성이 있다. 코알라벤치 데이터는 어느 한 모델을 절대적인 승자로 가리키지 않으며, 각 모델이 어느 부분에서 강하고 어느 부분에서 무너지는지를 보여주는 지도에 가깝다. 다만 평가에 사용된 자료 중 일부가 음성 합성(TTS)으로 만든 음원이라는 점, 한국어 외 다른 언어에는 아직 확장되지 않았다는 점은 연구진 스스로도 한계로 인정한 부분이라 두고 볼 필요가 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 코알라벤치(KoALa-Bench)는 무엇인가요?
A. 한국어 음성을 듣고 답하는 인공지능 모델을 평가하기 위해 만들어진 한국어 전용 음성 AI 평가 도구입니다. 받아쓰기, 영한 번역, 음성 질의응답, 음성 지시 이행, 음성 맥락 충실도, 위치 인지 질의응답 등 여섯 가지 항목을 측정하며, 한국 수능 듣기와 K팝·K-역사·K-스포츠 자료가 평가에 활용됩니다.
Q. 이번 평가에서 가장 한국어를 잘 알아듣는 음성 AI는 무엇인가요?
A. 알리바바의 큐웬3-옴니(Qwen3-Omni)가 받아쓰기 글자 오류율, 수능 듣기 정답률, 음성 맥락 충실도 등 핵심 항목에서 가장 균형 잡힌 점수를 받았습니다. 다만 평가 시점과 모델 버전에 따라 결과는 달라질 수 있어 절대적인 순위로 받아들이지 않는 편이 좋습니다.
Q. 음성 AI가 “들은 대로 답하지 않는다”는 말은 무슨 뜻인가요?
A. 모델이 들려준 음성을 무시하고, 학습 과정에서 외운 답을 그대로 내놓는 현상을 말합니다. 사실과 다른 K팝 정보를 음성으로 들려주어도 모델이 들은 내용을 따르지 않고 원래 알고 있던 답을 출력하는 경우가 이에 해당하며, 이번 평가에서는 지피티-오디오-미니에서 이런 경향이 가장 강하게 나타났습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: KoALa-Bench: Evaluating Large Audio Language Models on Korean Speech Understanding and Faithfulness
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






