“Alexa, can you forget me?” Machine Unlearning Benchmark in Spoken Language Understanding
음성 데이터 삭제가 시급한 이유: 개인 식별 정보 노출 위험성
음성 인공지능이 일상에 깊숙이 자리 잡으면서 개인정보 보호에 대한 우려도 함께 커지고 있다. 스마트 스피커와 음성 비서가 수집하는 음성 데이터에는 개인을 식별할 수 있는 민감한 정보가 포함되어 있기 때문이다. 이탈리아 토리노 공과대학교 연구진이 발표한 논문에 따르면, 음성 데이터는 특히 개인 식별 정보를 포함하고 있어 더욱 민감한 데이터로 분류된다고 밝혔다.
머신 언러닝(Machine Unlearning)은 훈련된 인공지능 모델에서 특정 데이터의 영향을 효율적으로 제거하는 기술이다. 이는 유럽연합의 일반 데이터 보호 규정(GDPR)과 캘리포니아 소비자 프라이버시법(CCPA) 등이 보장하는 ‘잊혀질 권리’를 준수하는 데 필수적이다. 연구진은 음성 AI 시스템에서 개인 사용자가 자신의 데이터 삭제를 요청할 때 이를 실현할 수 있는 기술적 기반을 마련했다고 설명했다.
4개 언어 4개 데이터셋으로 구성된 최초의 음성 언러닝 벤치마크
연구진은 음성 언어 이해(Spoken Language Understanding, SLU) 분야에서 최초로 머신 언러닝을 평가할 수 있는 종합적인 벤치마크인 UnSLU-BENCH를 개발했다. 이 벤치마크는 4개 언어(영어, 이탈리아어, 독일어, 프랑스어)의 4개 데이터셋을 포함하고 있으며, 각 데이터셋마다 2개의 트랜스포머 모델을 평가한다.
영어 데이터셋의 경우 wav2vec 2.0과 HuBERT 모델을 사용하고, 다국어 데이터셋에는 XLS-R-128과 XLS-R-53 모델을 적용했다. 특히 XLS-R-53 모델은 각 대상 언어에 대해 자동 음성 인식(ASR) 작업으로 미세 조정된 버전을 사용했다. 연구진은 이를 통해 다양한 모델 아키텍처와 데이터셋 복잡성에 걸쳐 머신 언러닝 기법의 효과를 종합적으로 분석할 수 있다고 설명했다.
네거티브 그래디언트 방식이 1748배 속도로 최고 성능 달성
연구진은 8가지 서로 다른 언러닝 방법을 평가했다. 파인튜닝(Fine-Tuning), 네거티브 그래디언트(Negative Gradients), NegGrad+, 파국적 망각(Catastrophically Forgetting), UNSIR, 배드 티칭(Bad Teaching), SCRUB 등의 기법들을 체계적으로 비교 분석했다.
실험 결과, 네거티브 그래디언트(NG) 방법이 가장 일관되게 높은 성능을 보였다. wav2vec 2.0 모델에서 NG는 두 번째로 좋은 방법보다 FSC 데이터셋에서 35%, SLURP 데이터셋에서 26% 더 높은 GUM 점수를 기록했다. 더 큰 다국어 XLS-R 53 모델에서는 이탈리아어와 독일어 데이터셋에서 39%, 프랑스어에서는 48%의 성능 향상을 보였다. 이러한 개선은 뛰어난 효율성(최대 1748배 속도 향상)과 강력한 효과성(골드 모델과 유사한 MIA 점수)에서 비롯된다고 연구진은 분석했다.
효과성·효율성·유용성을 한 번에 측정하는 GUM 지표 개발
기존 머신 언러닝 평가 방법의 한계를 극복하기 위해 연구진은 글로벌 언러닝 메트릭(Global Unlearning Metric, GUM)이라는 새로운 평가 지표를 제안했다. 이 지표는 언러닝의 세 가지 핵심 측면인 효과성(데이터 삭제 정도), 효율성(계산 비용), 유용성(모델 성능 유지)을 동시에 고려한다.
연구진은 기존 평가 방법들이 이 세 가지 측면 중 일부만을 고려해 부분적인 평가에 그쳤다고 지적했다. 예를 들어, 효과성만 무시하면 원본 모델이 최고의 “언러닝” 모델이 되고, 효율성만 무시하면 처음부터 다시 훈련하는 것이 최선이 되며, 유용성만 무시하면 무작위 예측 모델이 최고가 된다는 것이다. GUM은 이러한 편향을 방지하고 골드 모델(삭제할 데이터 없이 처음부터 훈련한 모델)을 기준점으로 삼아 더욱 균형 잡힌 평가를 가능하게 한다.
60 에포크 vs 11 에포크: 훈련 기간이 데이터 삭제 효과에 미치는 영향
연구진은 흥미로운 발견을 했다. 모델을 오래 훈련시킬수록 개인 데이터를 삭제하기가 더 어려워진다는 것이다. SLURP 데이터셋을 이용한 실험에서 60 에포크 동안 훈련한 모델은 언러닝 후에도 MIA 점수가 0.611로 원본 모델(0.628)과 거의 비슷했다. 반면 11 에포크만 훈련한 모델은 언러닝 후 MIA 점수가 0.480으로 골드 모델(0.491)과 거의 동일한 수준까지 떨어졌다.
이는 장기간 훈련으로 인한 과적합이 모델 내에 화자별 패턴을 더 깊이 각인시켜 언러닝 개입의 효과를 제한하기 때문이다. 연구진은 11 에포크 정도가 모델 성능 회복(F1 점수 0.499)과 낮은 기억 위험(MIA 0.480) 사이의 이상적인 균형점이라고 분석했다. 이는 효과적인 머신 언러닝을 위해서는 모델이 얼마나 잘 학습하는지와 훈련 데이터가 얼마나 영구적으로 인코딩되는지 사이의 신중한 균형 조정이 필요함을 보여준다.
전체 데이터의 2.5-5%만 삭제해도 개인정보 보호 효과 입증
연구진은 실제 개인 데이터 삭제 요청 상황을 시뮬레이션하기 위해 각 데이터셋에서 최소 100개 이상의 음성 샘플을 가진 화자들을 무작위로 선택해 망각 세트를 구성했다. 이는 전체 훈련 데이터의 2.5-5%에 해당하는 소량이지만, 개인의 데이터 삭제 요청을 충분히 대표할 수 있는 규모다.
특히 주목할 점은 일부 언러닝 기법에서 파국적 망각 현상이 발생했다는 것이다. NegGrad+ 기법을 XLS-R 128 모델에 적용했을 때 이탈리아어 데이터셋에서 F1 점수가 0.001까지 급락하고, 프랑스어에서는 0.008을 기록해 모델의 전반적인 성능이 심각하게 손상되었다. 이는 언러닝 과정에서 목표 데이터뿐만 아니라 모델의 전체적인 지식까지 함께 손실될 수 있음을 보여준다.
연구진은 현재 골드 모델에 대한 접근이 모델 검증 단계에서만 가능하고 실제 배포 환경에서는 제한적이라는 점을 머신 언러닝 분야 전체가 해결해야 할 과제로 지적했다.
FAQ
Q: 머신 언러닝이 음성 AI에서 왜 특히 중요한가요?
A: 음성 데이터는 개인을 식별할 수 있는 민감한 정보를 포함하고 있어 특별한 보호가 필요합니다. 스마트 스피커나 음성 비서가 수집한 개인 음성 데이터를 사용자 요청 시 완전히 삭제할 수 있는 기술이 개인정보 보호 규정 준수와 사용자 신뢰 확보에 필수적입니다.
Q: 네거티브 그래디언트 방법이 다른 언러닝 기법보다 우수한 이유는 무엇인가요?
A: 네거티브 그래디언트는 삭제하려는 데이터에 대해 역방향 그래디언트를 적용해 모델이 해당 데이터를 ‘잊도록’ 하는 방법입니다. 이 기법은 뛰어난 효율성(최대 1748배 속도 향상)과 강력한 데이터 삭제 효과를 동시에 제공해 종합 성능에서 가장 높은 점수를 기록했습니다.
Q: GUM 지표가 기존 평가 방법과 어떻게 다른가요?
A: 기존 평가 방법들은 효과성, 효율성, 유용성 중 일부만 고려해 편향된 결과를 보였습니다. GUM은 이 세 가지 요소를 모두 고려하고 골드 모델을 기준점으로 삼아 더욱 균형 잡힌 평가를 제공합니다. 이를 통해 실제 배포 환경에서 사용 가능한 언러닝 방법을 더 정확하게 식별할 수 있습니다.
해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.