• Home
  • AI Report
  • “AI로 만든 가짜 음성으로 250억 사기” … AI 음성 탐지기술 혁신 나왔다

“AI로 만든 가짜 음성으로 250억 사기” … AI 음성 탐지기술 혁신 나왔다

I Can Hear You: Selective Robust Training for Deepfake Audio Detection
이미지출처: 이디오그램

I Can Hear You: Selective Robust Training for Deepfake Audio Detection

“CFO와 영상통화했는데 AI였다”… 진화하는 음성 딥페이크 사기

AI 기술이 발전하면서 실제 사람의 목소리와 구분하기 어려운 가짜 음성을 만들 수 있게 됐다. 이런 기술이 범죄에 악용되면서 심각한 사회적 문제로 대두되고 있다. CNN 보도에 따르면 최근 홍콩에서는 AI로 만든 가짜 ‘최고재무책임자(CFO)’ 음성으로 화상통화를 한 뒤, 금융회사 직원이 사기범들에게 2,500만 달러(약 250억 원)를 송금하는 사건이 발생했다.

이처럼 AI 음성 합성 기술은 텍스트를 음성으로 변환하는 TTS(Text-to-Speech)와 한 사람의 목소리를 다른 사람의 목소리로 바꾸는 VC(Voice Conversion) 기술로 발전해왔다. 스타일TTS(StyleTTS), 보이스크래프트(VoiceCraft), XTTS 등 최신 AI 음성 합성 기술들은 이제 실제 사람의 목소리와 거의 구분이 불가능한 수준에 이르렀다. 이런 기술 발전이 새로운 범죄 수단으로 악용되면서 AI 가짜 음성을 탐지할 수 있는 기술 개발이 시급한 과제로 떠올랐다.

“기존 탐지 시스템, 현실에선 제대로 작동 안 한다”

콜롬비아대학교 연구진은 현재 사용되고 있는 딥페이크 음성 탐지 시스템들이 실제 환경에서는 제대로 작동하지 않는다는 심각한 문제점을 발견했다. 기존 탐지 시스템들은 실험실 환경에서는 높은 정확도를 보였지만, 실제 상황에서 마주하는 다양한 음성 샘플들을 제대로 판별하지 못했다. 연구진은 이러한 한계를 극복하기 위해 ‘딥페이크복스-HQ(DeepFakeVox-HQ)’라는 새로운 데이터셋을 구축했다.

이 데이터셋은 전 세계 14개의 다양한 AI 음성 생성 소스에서 수집한 27만 개의 고품질 가짜 음성 샘플을 포함하고 있다. 특히 메타보이스-1B(MetaVoice-1B), 스타일TTS-v2(StyleTTS-v2), 보이스크래프트(VoiceCraft), 위스퍼스피치(WhisperSpeech), 보칸TTS(VokanTTS), XTTS-v2, 일레븐랩스(Elevenlabs) 등 최신 AI 음성 합성 기술로 만든 샘플들이 포함되어 있다.

더불어 유튜브나 SNS에서 실제로 유포된 가짜 음성들도 수집했다. 이렇게 다양한 환경의 음성 데이터를 확보함으로써, 실전에서도 효과적으로 작동하는 탐지 시스템을 만들 수 있게 됐다. 연구진은 여기에 실제 음성 데이터도 추가해 총 130만 개의 음성 샘플을 포함하는 거대 데이터셋을 완성했다.

“사람 귀로는 못 듣는데 AI는 듣는다”…고주파수로 가짜 음성 잡아낸다

연구 과정에서 흥미로운 사실이 발견됐다. 최신 딥페이크 탐지 모델들은 주로 인간의 귀로는 감지하기 어려운 고주파 영역의 특성을 바탕으로 판단을 내린다는 것이다. 즉, 사람은 들을 수 없는 소리의 특징을 AI가 감지해 진짜와 가짜를 구분한다는 것이다. 하지만 이러한 특성은 공격자들이 쉽게 조작할 수 있어 탐지 시스템의 치명적인 약점이 될 수 있다는 문제가 있었다.

이를 해결하기 위해 연구진은 ‘F-SAT(Frequency-Selective Adversarial Training)’라는 혁신적인 학습 방법을 개발했다. 이 기술은 고주파 영역에 집중해 탐지를 수행하면서도, 공격자의 조작 시도에 강건한 특성을 보인다. 특히 저주파 영역의 특징은 그대로 유지하면서 고주파 영역의 취약점만을 보완할 수 있어, 전반적인 탐지 성능을 크게 향상시켰다.

실전에서도 통한다… 탐지 정확도 최대 50% 향상

새로운 기술의 성능은 놀라웠다. 연구진이 개발한 DeepFakeVox-HQ 데이터셋으로 AI를 학습시켰더니 기존 탐지 모델의 성능이 33% 향상됐다. 여기에 F-SAT 기술을 더하자 일반적인 가짜 음성은 물론, 의도적으로 조작된 음성도 탐지 정확도가 29.3% 높아졌다.

특히 주목할 만한 점은 실제 환경에서의 성능이다. 유튜브나 SNS에서 수집한 실제 가짜 음성의 경우, 최대 50%까지 탐지율이 향상됐다. 이는 F-SAT가 실험실 환경을 넘어 실제 상황에서도 효과적으로 작동한다는 것을 보여준다.

연구진은 또한 24가지 다양한 유형의 음성 변조와 공격에 대해서도 테스트를 진행했다. 그 결과 기존 모델들이 취약했던 다양한 형태의 음성 변조와 공격에도 강한 저항성을 보이는 것으로 나타났다.

“AI 사기 막을 새로운 무기 될 것”

연구진은 “AI 음성 합성 기술이 빠르게 발전하면서 딥페이크 탐지는 더욱 어려워지고 있다”며 “우리의 연구가 이러한 도전에 대응하는 중요한 첫걸음이 될 것”이라고 밝혔다. 특히 연구를 이끈 콜롬비아 대학교의 주펑 양(Junfeng Yang) 교수는 “AI 음성을 이용한 사기가 급증하는 상황에서, 우리의 연구가 새로운 방어 수단을 제공할 것”이라고 말했다. 양 교수는 “특히 우리의 기술이 실제 환경에서 발생할 수 있는 다양한 공격과 변조에도 강한 성능을 보인다는 점에서 의미가 있다”고 설명했다.

실제로 최근에는 TTS(Text-to-Speech)와 VC(Voice Conversion) 등 다양한 AI 음성 합성 기술이 발전하면서, 몇 초짜리 음성 샘플만으로도 누구나 쉽게 타인의 목소리를 완벽하게 복제할 수 있게 됐다.

이번 연구는 콜롬비아대학교 공과대학과 사이버 NYC의 지원을 받아 진행됐으며, AI 음성 딥페이크 탐지 분야에서 중요한 이정표가 될 것으로 기대된다. 특히 연구진이 개발한 데이터셋과 탐지 기술은 공개되어 있어, 전 세계 연구자들이 이를 바탕으로 더 발전된 탐지 기술을 개발할 수 있을 것으로 전망된다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




“AI로 만든 가짜 음성으로 250억 사기” … AI 음성 탐지기술 혁신 나왔다 – AI 매터스