Search

수어 통역 AI가 막혔던 진짜 이유, 단어가 아니라 ‘생각’을 옮겨야 했다

Think in Latent Thoughts_ A New Paradigm for Gloss-Free Sign Language Translation
이미지 출처: 이디오그램 생성

같은 수어 손 모양이 어떤 맥락에서는 “주차하다”가 되고, 다른 맥락에서는 “충돌하다”가 된다. 그동안 인공지능(AI)이 수어 번역에서 좀처럼 진전을 내지 못했던 이유가 바로 여기에 있었다. 홍콩이공대학교(The Hong Kong Polytechnic University) 연구진이 2026년 4월 발표한 논문 「Think in Latent Thoughts」는 수어 번역을 단순한 영상-텍스트 변환이 아니라 추론(reasoning) 문제로 다시 정의하고, 실제 다섯 개 벤치마크에서 기존 최고 성능을 갈아치웠다.

그림1. 모호한 수어 맥락을 정리해 정확한 번역을 이끌어내는 과정
그림1. 모호한 수어 맥락을 정리해 정확한 번역을 이끌어내는 과정


수어 번역 AI 추론, 단어 매칭이라는 통념을 뒤집다

연구진은 글로스 프리 수어 번역(Gloss-Free Sign Language Translation)을 추론 작업으로 재정의했다. 글로스 프리 수어 번역이란 단어 단위의 중간 주석 없이 수어 영상에서 곧바로 음성 언어 문장을 생성하는 방식을 말한다. 그동안 대부분의 수어 번역 시스템은 짧은 수어 동작 하나가 음성 언어의 단어 하나에 곧바로 대응한다고 가정해 왔다. 하지만 실제 수어 사용자(signer)는 같은 손 모양을 공간, 움직임, 맥락에 따라 전혀 다른 의미로 쓴다.

논문은 “차량(vehicle)” 손 모양 하나가 움직임 차이만으로 “주차하다”, “충돌하다”, “운전하다” 같은 의미를 모두 만들어낸다고 설명한다. 손짓 사전에 등재되지 않은 의미가 그 자리에서 새로 만들어지는 셈이다. 연구진은 이 현상을 “생산적 형태(Productive Forms)”라고 부르고, 수어 번역이 본질적으로 단어 매칭이 아니라 맥락 추론에 가까운 작업이라고 주장한다.

5개 벤치마크 BLEU-4 최고점, 가장 큰 격차는 미국 수어 데이터셋

새 모델 사인쏘트(SignThought)는 다섯 개 공개 벤치마크 모두에서 글로스 프리 부문 최고 BLEU-4 점수를 기록했다. BLEU-4는 기계 번역 품질을 측정하는 지표로, 점수가 높을수록 사람이 쓴 문장과 더 비슷한 번역을 생성했다는 뜻이다.

독일 수어 데이터셋 PHOENIX14T에서 사인쏘트는 BLEU-4 27.22점으로 직전 1위였던 C2RL의 26.75점을 넘어섰다. 중국 수어 데이터셋 CSL-Daily에서도 23.92점을 기록해 21.61점이었던 기존 최고 모델을 앞질렀다.

가장 큰 격차가 벌어진 곳은 미국 수어 데이터셋이었다. How2Sign에서는 9.37점에서 13.39점으로, OpenASL에서는 13.21점에서 19.55점으로 점수가 뛰었다. 점수 4~6점 차이가 작아 보일 수 있지만, BLEU-4 영역에서 이 정도 격차는 사람이 수어 영상을 보고 쓴 문장에 더 가까워졌다는 뜻이고, 자막 자동 생성이나 수어 통역 보조 도구에서는 한 문장이 통할지 안 통할지를 가르는 차이가 된다.

잠재 사고 체인과 ‘계획 후 근거 확인’ 구조의 작동 원리

사인쏘트가 다른 모델과 갈라지는 지점은 영상과 번역 사이에 “잠재 사고 체인(Latent Chain-of-Thought)”이라는 중간 단계를 끼워 넣었다는 점이다. 잠재 사고 체인이란 영상에서 추출한 정보를 곧바로 텍스트로 옮기지 않고, 순서가 매겨진 사고 슬롯(thought slot)에 한 번 정리한 뒤 번역으로 넘기는 구조를 말한다.

모델이 영상 전체를 한꺼번에 보고 단어를 뽑아내려 하면 어디를 봐야 할지 흩어지지만, 사고 슬롯에 의미를 단계적으로 쌓아 두면 무엇을 말할지를 먼저 정한 뒤 근거를 찾아갈 수 있다. 연구진은 이를 “계획 후 근거 확인(Plan-Then-Ground)” 디코딩이라고 부른다.

모델이 먼저 “무엇을 말할 것인가”를 사고 슬롯으로 결정하고, 그 다음에 영상으로 돌아가 “어디서 그 근거가 나왔는가”를 찾는 두 단계 구조다. 실제 번역 사례에서도 차이가 드러났다.

중국 수어 영상에서 기존 모델은 “이 사진에 문제가 있다”라고 잘못 번역했지만, 사인쏘트는 원문 의도인 “두 사진의 차이를 정말 모르겠다”에 가까운 문장을 만들어냈다. KFC 같은 고유명사를 빠뜨리지 않고 잡아낸 것도 이 구조의 효과로 보인다.

1,311시간 홍콩 수어 데이터셋 LC-HKSLT 공개

연구진은 모델과 함께 홍콩 수어 대규모 데이터셋 LC-HKSLT를 공개했다. 1,311시간 분량의 영상과 약 43만 2천 개 클립으로 구성됐고, 모두 방송용 공공 브리핑에서 수어 통역사가 화면에 등장하는 장면을 모은 것이다.

기존 수어 번역 데이터셋이 규모가 작거나 통제된 환경에서 촬영된 것과 달리, LC-HKSLT는 글로스(gloss) 주석 없이 문장 단위 자막만 제공돼 실제 배포 환경에 가깝다.

사인쏘트를 LC-HKSLT의 나머지 데이터로 사전학습한 뒤 30시간 분량으로 미세조정한 변형 모델은 BLEU-4 30.22점, ROUGE 60.01점이라는 추가적인 성능 향상을 보였다. 한국어 수어나 다른 지역 수어 연구자에게도 같은 방식의 대규모 데이터셋 구축이 필요하다는 신호다.

멀티모달 추론 시대의 신호탄

이 연구가 흥미로운 이유는 단순히 점수를 높였기 때문이 아니다. 텍스트 기반 대형 언어모델(LLM)에서 자리 잡은 사고 체인(Chain-of-Thought) 기법을 영상이라는 다른 모달리티(modality)에 옮겨 붙이는 데 성공했다는 점이 더 의미 있다.

다만 연구진 자신도 한계로 지적했듯, 이 모델의 “사고”는 사람이 읽을 수 있는 문장으로 풀려 있지 않고 여전히 모델 내부의 잠재 상태에 머물러 있다. 모델이 정확히 무엇을 생각하고 그 결정을 내렸는지를 사람이 직접 들여다보거나 검증하기는 어렵다는 뜻이다.

수어 번역이 실제 청각장애인 사용자의 통역 보조 도구로 쓰이려면 모델이 잘못 번역했을 때 그 원인을 추적할 수 있어야 하고, 이 부분은 후속 연구가 필요한 영역으로 보인다. 또 한 가지, 미국 수어 데이터셋에서 점수가 크게 오른 점은 향후 데이터 규모가 커지면 같은 구조가 한국 수어를 비롯한 다른 언어로도 확장될 가능성이 있다는 신호로 두고 볼 만하다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 글로스 프리 수어 번역이 왜 어려운가요?

수어는 같은 손 모양이라도 움직임과 공간 위치, 맥락에 따라 전혀 다른 의미가 됩니다. 따라서 한 동작을 한 단어로 매칭하는 방식으로는 풀리지 않으며, 영상 전체를 보고 의미를 추론해야 하는 작업입니다.

Q2. 잠재 사고 체인이 기존 방식과 어떻게 다른가요?

기존 방식은 영상 정보를 곧바로 텍스트로 변환했다면, 잠재 사고 체인은 영상과 텍스트 사이에 의미를 정리하는 중간 단계를 둡니다. 모델이 먼저 무엇을 말할지 정리한 뒤 영상에서 근거를 찾기 때문에 일관성과 정확도가 함께 올라갑니다.

Q3. 일반인이 이 기술을 곧 사용할 수 있나요?

이번 연구는 학술 단계이며 코드와 데이터는 깃허브를 통해 공개될 예정입니다. 다만 실시간 통역 앱이나 영상 자막 자동 생성 같은 실제 서비스로 이어지려면 추가 연구와 한국 수어를 포함한 다국어 확장이 필요합니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation (Yiyang Jiang et al., 2026)
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너