Search

AI 작곡 시대 개막… 13만 곡 분석했더니 “사람 노래와 구분 불가”

Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learning
이미지 출처: 이디오그램 생성

인도 대학 연구팀이 AI가 만든 음악을 찾아내는 새로운 프로그램을 개발했다. 이 프로그램은 100번 중 92~93번 정도 정확하게 맞출 수 있다. 흥미로운 점은 사람들이 일부 AI 음악을 진짜 사람이 만든 음악보다 더 좋다고 평가했다는 것이다. 이는 AI 음악 제작 기술이 이미 사람이 만든 것과 구분하기 어려운 수준에 도달했다는 뜻이다.

AI가 만든 음악이 사람 음악보다 높은 점수 받아

인도 공과대학교와 마니팔대학교 연구팀이 발표한 논문을 보면, 리퓨전(Riffusion)과 유디오(Udio) 같은 최신 AI 음악 만드는 프로그램으로 만든 곡들이 사람들에게 더 높은 점수를 받았다.

실험 방식은 이렇다. 사람들에게 여러 음악을 들려주고 “어느 쪽이 더 좋은 음악인가요?”라고 물었다. 그리고 체스 실력을 비교할 때 쓰는 점수 매기기 방식으로 계산했다. 결과는 놀라웠다. 리퓨전이 만든 음악은 1105.58점, 유디오가 만든 음악은 1093.34점을 받았다. 그런데 진짜 사람이 만든 음악은 1032.84점밖에 받지 못했다. AI가 만든 음악이 사람이 만든 음악을 이긴 것이다.

연구팀은 이것이 음악 업계에 큰 문제가 될 수 있다고 말한다. 수노(Suno), 유디오 같은 프로그램들은 가사, 노래, 악기 연주를 모두 자동으로 만들어낸다. 더 큰 문제는 기존의 ‘AI 음악인지 아닌지 찾아내는 프로그램’들이 새로운 AI 제작 프로그램에는 잘 안 맞는다는 것이다. 예를 들어 지금까지 가장 좋다고 알려진 스펙트라(SpecTTTra)라는 프로그램은 리퓨전으로 만든 음악을 겨우 53.46%만 맞췄다. 목소리를 복제한 샘플은 50.94%만 맞췄다.

AI    13


13만 곡, 6,665시간 분량 자료 만들어… 9개 AI 프로그램 포함

연구팀이 만든 ‘멜로디 오어 머신(MoM)’이라는 자료는 총 13만 435곡이다. 시간으로 따지면 약 6,665시간 분량이다. 지금까지 나온 것 중에서 가장 다양한 자료다. 이 자료에는 9개의 서로 다른 AI 음악 만드는 프로그램이 포함되어 있다. 수노(v2, v3, v3.5, v4), 유디오(v1.5), 리퓨전, 디프리듬(Diffrhythm), 유에(Yue) 등이다. 공개된 프로그램도 있고 비공개 프로그램도 있다.

자료는 세 종류로 나눈다. 첫 번째는 진짜 음악이다. 유튜브에서 모은 약 4만 8천 곡의 원곡과, 사람이 직접 부른 커버 곡 약 1만 7천 곡, 총 6만 5천여 곡이다. 커버 곡까지 넣은 이유가 있다. 사람이 부르면 목소리나 편곡이 원곡과 달라진다. 판별 프로그램이 이런 자연스러운 차이를 ‘AI가 만든 것’으로 착각하지 않도록 학습시키기 위해서다.

두 번째는 완전히 AI가 만든 음악이다. 약 5만 4천 곡이다. 연구팀은 AI에게 음악을 만들라고 명령할 때 세 가지 방법을 썼다. 하나는 기존 유명한 곡 제목을 다른 장르로 바꿔서 만들게 하는 것이다. 예를 들어 “발라드 곡을 힙합 스타일로 만들어줘” 같은 식이다. 두 번째는 장르, 분위기, 템포, 악기 같은 음악 요소를 세세하게 지정해서 만들게 하는 것이다. 세 번째는 실제 사람들이 AI 음악 사이트에서 자주 쓰는 명령어를 모아서 쓰는 것이다.

세 번째는 일부만 AI가 만든 음악이다. 약 1만 1천 곡 정도다. 진짜 가사에 AI가 음악을 붙이거나, 유명 가수의 목소리를 AI가 복제해서 다른 노래를 부르게 한 것들이다.

기존 평가 자료인 소닉스(SONICS)는 영어권 남성 목소리 위주였고, 수노와 유디오 두 가지만 사용했다. 하지만 MoM은 여러 언어의 노래를 포함하고, 학습할 때 쓰는 AI 프로그램과 평가할 때 쓰는 AI 프로그램을 다르게 했다. 이렇게 하면 프로그램이 특정 AI의 특징만 외우는 게 아니라 진짜로 구별하는 능력을 배울 수 있다.

클램(CLAM) 모델 개발… 두 가지 방식으로 동시 분석

연구팀이 만든 ‘클램(CLAM)’이라는 프로그램은 이런 생각에서 시작했다. “AI가 만든 음악은 노래 부분과 악기 부분 사이에 뭔가 어색한 점이 있을 것이다.” 진짜 음악 녹음을 생각해보자. 사람 가수가 높은 음을 부르면 목소리 톤도 자연스럽게 변한다. 드럼 연주자가 리듬을 칠 때도 완벽하게 똑같은 박자가 아니라 아주 조금씩 달라진다. 이런 것들이 사람 음악만의 특징이다. 그런데 AI는 이런 걸 완벽하게 흉내내지 못할 수 있다. 노래와 악기를 따로따로 만들어서 합치다 보니 뭔가 미묘하게 안 맞을 수 있다는 것이다.

클램은 이런 ‘안 맞는 부분’을 찾기 위해 두 가지 방식으로 음악을 동시에 분석한다. 하나는 ‘머트(MERT)’라는 방식인데, 화음이나 리듬 같은 음악 구조를 주로 본다. 다른 하나는 ‘웨이브투벡2(Wave2Vec2)’라는 방식인데, 목소리 톤이나 발음 같은 세세한 부분을 주로 본다. 같은 음악을 이 두 가지 방식으로 동시에 분석해서 서로 보완한다.

학습 방법도 특별하다. 일반적인 ‘진짜냐 가짜냐’ 판별 방법에 ‘비교하며 배우기’ 방법을 더했다. 비교하며 배우기는 이렇게 작동한다. 같은 진짜 음악의 ‘노래 부분 분석 결과’와 ‘악기 부분 분석 결과’는 서로 가깝게 만든다. 반대로 다른 음악의 분석 결과는 멀리 떨어뜨린다. 이런 식으로 학습하면 프로그램이 진짜 음악에서 노래와 악기가 어떻게 잘 어울리는지를 배운다. 그러면 AI 음악에서 이 어울림이 깨진 부분을 찾아낼 수 있다.

100번 중 92~93번 맞춤… 기존 것보다 6%p 높아

클램은 MoM 자료로 평가했을 때 100번 중 92~93번 정도 맞췄다. 정확히는 92.5%다. 이전에 가장 좋았던 스펙트라는 86.9%였으니까 약 6%포인트 높아진 것이다. 다른 최신 프로그램인 MiO는 87.2%, 포인-하이어넷(Poin-HierNet)은 89.6%였는데, 클램이 이들보다 모두 높다. 통계 검증 결과 이건 우연이 아닌 것으로 나타났다.

비교 실험도 했다. 하나의 분석 방식만 쓰면 어떨까? 머트만 쓰면 85.3%, 웨이브투벡2만 쓰면 84.6%였다. 그런데 두 개를 함께 쓰니까 비교 학습 방법을 안 써도 87.5%가 나왔다. 여기에 비교 학습까지 추가하니까 92.5%로 확 올라갔다. 이걸 보면 두 가지를 함께 쓰는 것과 비교 학습 방법이 모두 효과가 있다는 걸 알 수 있다. 소닉스라는 다른 평가 자료로도 테스트했다. 여기서는 99.3%가 나왔다.

연구팀은 AI 음악 판별 프로그램에 대한 한계도 밝혔다. AI 음악 만드는 기술이 빠르게 발전하기 때문에 어떤 판별 프로그램도 계속 업데이트하지 않으면 소용없게 된다는 것이다. 또한, 연구팀이 만든 프로그램은 자료의 82%가 영어 노래라서 다른 언어 노래에는 어떨지 모르며, 프로그램이 복잡해서 컴퓨터 성능을 많이 요구한다고 강조했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI 음악과 사람 음악을 어떻게 구별하나요?

A: 클램 같은 프로그램은 노래 부분과 악기 부분을 동시에 분석합니다. 진짜 사람 음악은 가수 목소리가 음 높이에 따라 자연스럽게 변하고, 리듬도 완벽한 박자가 아니라 조금씩 다릅니다. 이런 게 사람다운 특징입니다. AI 음악은 이런 자연스러운 불완전함이 부족하거나 패턴이 다릅니다. 하지만 최신 AI는 이것까지 따라하기 시작해서 전문가도 구별하기 어렵습니다.

Q2. AI 음악 기술이 음악 업계에 어떤 영향을 주나요?

A: 좋은 점은 누구나 쉽게 음악을 만들 수 있다는 것입니다. 작곡을 못 해도, 악기를 못 다뤄도 AI가 도와줍니다. 나쁜 점은 저작권 문제, 음악가 일자리 감소, 진짜 예술의 가치 하락입니다. 특히 유명 가수 목소리를 몰래 복제하거나, AI가 만든 걸 사람이 만든 것처럼 속이는 경우 큰 문제가 됩니다. 그래서 음원 사이트의 표시 제도와 법적 규제가 필요합니다.

Q3. 클램 모델은 얼마나 정확한가요?

A: 클램은 100번 중 92~93번 정도 맞춥니다. 정확히는 92.5%입니다. 이전 최고 프로그램인 스펙트라가 86.9%였으니까 약 6%포인트 높아진 것입니다. 특히 기존 프로그램들이 새로운 AI 제작 도구로 만든 음악은 50~68%밖에 못 맞췄는데, 클램은 여러 종류의 AI 제작 도구에 대해 일정하게 높은 정확도를 보였습니다. 다만 AI 기술이 계속 발전하므로 판별 프로그램도 계속 업데이트해야 합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learning

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI 작곡 시대 개막… 13만 곡 분석했더니 “사람 노래와 구분 불가” – AI 매터스