“내 목소리가 야동에?” 성우 생존을 위협하는 AI의 무단 목소리 복제

펜실베이니아 주립대학교(Pennsylvania State University)와 애리조나 주립대학교(Arizona State University) 공동 연구팀이 생성형 AI가 성우들에게 미치는 위험을 체계적으로 분석한 연구 결과를 발표했다. 이 연구는 AI 데이터 경제에서 소외되고 있는 성우들의 목소리를 대변하고, 그들이 직면한 새로운 형태의 위험들을 사회에 알리기 위해 진행됐다.

연구팀은 음성 기술 발전에 기여한 성우들이 정작 AI 시대에는 예상치 못한 피해를 당하고 있다는 문제의식에서 출발했다. 특히 목소리가 단순한 창작물이 아닌 개인을 식별하는 생체 정보라는 점에 주목해, 기존의 창작자 보호 체계로는 성우들을 충분히 보호할 수 없다고 판단했다.

성우들의 목소리가 몰래 AI 학습에 사용되고 있다

우리가 매일 사용하는 아이폰의 시리(Siri)나 알렉사(Alexa) 같은 음성 비서, 그리고 오디오북 기술의 기반이 된 LibriSpeech 같은 대규모 음성 데이터는 모두 수많은 성우들의 목소리로 만들어졌다. 이들은 10년 전 기술 발전과 지식 공유라는 선한 목적으로 자신의 목소리를 제공했다.

하지만 지금 상황은 완전히 달라졌다. 연구팀이 미국 내 프리랜서부터 스튜디오 운영자까지 다양한 경력의 전문 성우 20명을 심층 인터뷰한 결과, 당시 제공했던 목소리들이 이제는 성우들을 위험에 빠뜨리고 있다는 충격적인 사실을 발견했다.

OpenAI 같은 AI 회사들은 “공개적으로 이용 가능한 자료”로 모델을 훈련시킨다고 주장하지만, 공개 접근이 가능하다고 해서 법적이나 윤리적 사용 허가를 받은 것은 아니다. 2024년 유튜브 크리에이터가 OpenAI를 상대로 수백만 시간의 비디오 콘텐츠를 무단으로 전사해 ChatGPT 훈련에 사용했다며 소송을 제기한 사례도 있다.

성우 베브 스탠딩(Bev Standing)은 TikTok이 자신의 목소리를 무단으로 텍스트 음성 변환 기능에 사용했다며 법적 조치를 취했다. 한 성우는 “처음에는 애니메이션 캐릭터 목소리 녹음을 했는데, 나중에 그 캐릭터로 AI가 만든 야한 영상이 나왔다. 내가 절대 동의하지 않은 일인데 내 평판에 나쁜 영향을 준다”고 증언했다.

“엄마, 나 다쳤어” – AI 목소리로 벌어지는 새로운 사기 수법

성우들이 걱정하는 것은 평판 손상만이 아니다. 목소리는 시각적 데이터나 텍스트와 달리 개인을 고유하게 식별할 수 있는 생체 정보다. 이 때문에 AI 음성 복제 기술은 신원 도용, 사기, 명예훼손 등 심각한 범죄에 악용될 위험이 크다.

연구에 참여한 성우 P16은 구체적인 우려를 토로했다. “사기꾼들이 이제 당신에게 전화를 걸어 아이의 목소리로 ‘엄마, 나 다쳤어’라고 말할 수 있다. 진짜인지 가짜인지 구별할 수 없어서 정말 무섭다. 내 목소리는 일반인보다 훨씬 많이 퍼져 있어서 더 위험하다”고 말했다.

실제로 금융기관들이 본인 확인 수단으로 음성 인증을 도입하는 추세인데, AI 목소리 복제 기술의 발달로 이마저 안전하지 않게 됐다. 사이버 보안 전문가 출신인 참가자 P6는 “일부 딥페이크 기술이 심각한 범죄로 이어지고 있다”며 “AI로 복제된 목소리를 이용해 경찰에 허위 신고를 하는 ‘스와팅(swatting)’ 같은 위험한 사건들이 늘고 있다”고 경고했다.

또 다른 성우는 “은행이 목소리로 본인 확인을 한다면 위험한 발상이다. 목소리 복제가 너무 쉬워졌기 때문이다. 때로는 음성 인증을 요구하는 은행들이 내 목소리를 다른 용도로 몰래 사용하는 건 아닌지 궁금하기도 하다”고 우려를 표했다.

기존 보호 장치로는 부족하다 – 새로운 6가지 보호 기준 제시

지금까지 창작자 보호는 주로 ‘동의(Consent)’, ‘출처 표시(Credit)’, ‘보상(Compensation)’이라는 3가지 기준에 의존해 왔다. 하지만 AI 시대의 성우들이 직면한 복합적인 위험에는 이것만으로 부족하다는 게 연구진의 결론이다.

연구진은 여기에 ‘개인정보 보호(Privacy)’, ‘평판 관리(Reputation)’, ‘책임 추궁(Accountability)’을 추가한 PRAC³이라는 새로운 6가지 기준을 제안했다. 이는 목소리가 단순한 창작물이 아니라 개인을 식별할 수 있는 생체 정보라는 특수성을 반영한 것이다.

개인정보 보호는 목소리 데이터의 무단 사용과 생체 인식 신원 노출을 막는 것이다. 평판 관리는 목소리가 나쁜 용도로 재사용돼서 생기는 전문적 신뢰도나 개인 이미지 손상을 방지하는 것이다. 책임 추궁은 목소리가 악용됐을 때 누가 책임질지 명확히 하고, 피해를 추적하고 구제받을 수 있는 법적·기술적 방법을 마련하는 것이다.

예를 들어, 기존 체계에서는 아티스트의 스타일을 AI가 모방할 때 단순히 원작자 이름만 적어주면 충분했다. 하지만 이것으로는 경제적 피해나 정서적 충격을 막을 수 없다. 마찬가지로 한 번의 라이선스 비용 지불로는 AI 모델이 그 작품에서 무한정 가치를 얻어내는 것에 대한 적절한 보상이 되지 않는다.

성우들이 일하면서 당하는 4단계 위험

연구진은 성우들의 작업 과정을 4단계로 나누어 각 단계별 위험을 분석했다. 일감 찾기, 오디션, 계약 협상, 녹음 및 파일 전달 과정에서 서로 다른 위험들이 성우들을 기다리고 있었다. 성우들은 Voice123, Amazon ACX 같은 상업 플랫폼, 페이스북이나 링크드인 같은 소셜미디어, 그리고 에이전트를 통해 일감을 찾는다. 하지만 여기서 첫 번째 위험이 시작된다.

플랫폼들이 익명 클라이언트를 허용하면서 진짜 프로젝트와 목소리 수집이 목적인 가짜 프로젝트를 구별하기 어려워졌다. 특히 TTS(텍스트 음성 변환) 학습용으로 목소리를 모으려는 의심스러운 의뢰들이 늘고 있다. 경험이 적은 신입 성우들은 이런 위험을 알아차리기 더욱 어렵다.

참가자들은 오디션 단계를 가장 위험하다고 입을 모았다. 제출한 목소리 샘플이 선발 과정과 상관없이 무단으로 사용될 수 있는데, 이를 막을 규제가 거의 없기 때문이다. 성우들이 경계하는 위험 신호들이 있다. 비정상적으로 긴 오디션 샘플을 요구하거나, 에이전트나 캐스팅 디렉터와의 소통이 없는 경우다. 한 성우(P18)는 “보통 오디션은 프로젝트 종류에 따라 1분에서 5분 정도다. 광고는 좀 더 길 수 있지만 오디오북은 60초를 넘지 않아야 한다. 더 길게 요구하면 그 클라이언트에게 뭔가 문제가 있다”고 설명했다.

일부 성우들은 대응책으로 오디션 샘플에 경고음을 넣기도 하지만, 대부분은 음질을 해치고 취업 기회를 놓칠까 봐 이 방법을 쓰지 않는다. 여러 참가자들이 자신의 오디션이 실제로 오남용됐다고 의심하지만, 추적하거나 법적 대응할 방법이 없어 속수무책이라고 토로했다.

계약 단계에서는 기존의 동의, 출처 표시, 보상 문제와 함께 AI 관련 새로운 위험들이 등장한다. 오디오북 분야에서는 내레이터에게 공개적으로 크레딧을 주지만, 광고나 기업 콘텐츠에서는 드물다. 보상 방식도 세션당 고정비, 기간 제한 매수, 영구 권리 양도 등 다양하다. 생성형 AI 시대에는 ‘영구 매수’ 조건이 위험 신호로 받아들여진다. 적절한 보상 없이 AI 재사용 가능성을 시사하기 때문이다.

마지막 단계인 녹음과 파일 공유에서는 가장 근본적인 문제가 발생한다. 성우들은 일반적으로 XLR 마이크, 오디오 인터페이스, Reaper나 Audacity 같은 디지털 오디오 워크스테이션을 사용해 홈 스튜디오에서 녹음한다. 작업 방식은 홈 스튜디오, Source Connect를 통한 원격 세션, 현장 스튜디오 세션으로 나뉜다.

파일 공유는 WeTransfer(간편함과 알림 기능 때문에 선호), Dropbox, Google Drive(대용량이나 지속적인 작업용), 이메일(작은 .mp3 오디션용)을 통해 이뤄진다. Voices.com이나 ACX 같은 플랫폼에서는 내부적으로 업로드를 처리하기도 한다.

하지만 파일을 보낸 순간부터 성우들은 통제권과 투명성을 잃는다. 한 성우(P14)는 이렇게 토로했다. “클라이언트가 사용 약정을 지키는지 확인할 방법이 없다. 우연히 발견하지 않는 한 말이다. 일단 다운로드되면 다른 사람과 공유하거나, 잘라서 보낼 수도 있다. 지금 업계에서 그런 기술을 사용하는 사람은 없다고 생각한다. 초기 오디오 파일에 뭔가 있어서 AI 복제본이 만들어지면 탐지할 수 있는 기술이 있으면 좋겠다.”

성우들은 또한 클라이언트들이 배우를 다시 고용하는 대신 사소한 수정을 위해 AI로 목소리를 흉내 내는 ‘픽업(pick-ups)’ 관행에 대해서도 우려했다. 워터마킹이나 추적 기술이 없어 이런 오남용을 탐지할 방법이 없다는 점이 큰 문제다.

FAQ

Q: 성우들이 AI 목소리 복제로부터 자신을 지키려면 어떻게 해야 하나요? A: 계약할 때 ‘AI 사용 금지’ 조항을 반드시 넣고, 성우 협회에서 만든 AI 관련 계약서 양식을 사용해야 합니다. 또한 너무 긴 오디션을 요구하거나 정체를 숨기는 클라이언트는 피하는 게 좋습니다.

Q: 새로운 6가지 보호 기준이 기존 3가지와 어떻게 다른가요? A: 기존에는 동의, 출처표시, 보상만 고려했지만, 새 기준은 여기에 개인정보 보호, 평판 관리, 책임 추궁을 추가했습니다. 목소리가 단순한 작품이 아니라 개인을 식별하는 생체 정보라는 점을 반영한 것입니다.

Q: AI 목소리 기술이 성우 업계에 경제적으로 어떤 영향을 주나요? A: 작은 역할이나 단순한 내레이션 일자리가 AI로 대체되고 있습니다. 또한 한 번 계약으로 평생 사용권을 넘겨주는 조건 때문에 나중에 AI가 계속 사용해도 추가 돈을 받지 못하는 경우가 많습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: PRAC3 (Privacy, Reputation, Accountability, Consent, Credit, Compensation): Long Tailed Risks of Voice Actors in AI Data-Economy

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.