대만 원지대학교 컴퓨터공학과 연구팀이 인간과 AI가 만든 음악을 거의 완벽하게 구분하는 기술을 개발했다. 이 기술은 98.25%의 정확도로 음악 작품의 실제 제작자를 찾아낸다. 더욱 놀라운 것은 서로 다른 AI 기술이 만든 음악까지 구별할 수 있어 음악 저작권과 AI 콘텐츠 관리에 새로운 해결책을 제시했다는 점이다.
복잡한 악보를 컴퓨터가 읽는 간단한 글자로 바꿔
연구팀은 ‘YNote(와이노트)’라는 특별한 음악 기록 방법을 사용했다. 이 방법은 모든 음표를 4글자로 표현한다. 앞의 2글자는 음의 높낮이를, 뒤의 2글자는 음의 길이를 나타낸다. 예를 들어 피아노 가운데 도는 ‘C4’로, 4분음표는 ’04’로 쓴다. 샵이나 플랫이 붙은 음은 작은 글자로 표현하고, 쉬는 부분은 ’00’으로 적는다.
이 방법의 가장 큰 장점은 컴퓨터가 음악을 쉽게 이해할 수 있다는 것이다. 복잡한 악보가 컴퓨터를 위한 간단한 글자로 바뀌는 셈이다. 기존의 음악 파일 형태들은 너무 복잡해서 문자를 처리하도록 만들어진 AI가 이해하기 어려웠다.

2만 1천 곡 분석해 인간·규칙AI·딥러닝AI 음악 패턴 찾기
연구팀은 문서 분석에 쓰이는 ‘TF-IDF’라는 방법을 음악에 적용했다. 이 방법은 특정 단어가 한 문서에서 얼마나 자주 나타나고, 전체 문서들에서는 얼마나 드문지를 계산해 중요도를 매긴다. 음악에서는 특정 음표나 음표 조합이 얼마나 중요한지 알아내는 데 사용했다.
연구에는 총 21,398곡이 사용되었다. 사람이 만든 곡 669곡, 규칙 기반 프로그램이 만든 곡 18,894곡, 대형 AI 모델이 만든 곡 1,835곡이었다. 데이터의 양이 크게 다르기 때문에 적은 쪽의 데이터를 인위적으로 늘리는 ‘SMOTE’라는 기법을 사용했다.
분석할 때는 음표 1개, 연속된 음표 2개, 연속된 음표 3개의 패턴을 모두 살펴봤다. 이렇게 해서 개별 음표뿐만 아니라 짧은 선율이나 리듬 조합까지 파악할 수 있었다.
인간 vs AI 작곡의 결정적 차이점
분석 결과 각각의 음악 제작 주체가 남기는 독특한 패턴이 확인됐다. 인간이 작곡한 음악에서는 쉼표를 의미하는 ‘휴지’를 나타내는 특징들이 더 자주 활용되는 것으로 나타났다. 반면 규칙 기반 알고리즘이 생성한 음악에서는 이런 휴지 요소가 거의 사용되지 않았다.
연구에 사용된 인간 작곡 데이터에는 강남스타일, 금풍격, 가자희극, 일본 엔카, 하카 민요, 초기 대만 팝송 등 다양한 장르가 포함됐다. 규칙 기반 알고리즘의 경우 특정 음악 스타일에 대한 심층적 수동 분석을 통해 음계, 선법, 멜로디 윤곽, 리듬 패턴의 특성을 파악하고 이를 규칙으로 체계화했다. 이후 마르코프 체인 몬테카를로(MCMC) 방법을 활용해 음표 간 전이 확률을 계산하고, 시뮬레이티드 어닐링 알고리즘으로 멜로디를 생성하는 방식을 적용했다.
대형 언어모델 기반 음악 생성의 경우 GPT-2와 같은 AI를 음악 데이터로 재학습시켜 제작됐다. 이렇게 생성된 음악들은 특정한 두 음표 조합 패턴을 보였으며, 이는 대량의 음악 데이터에서 학습된 고유한 특성으로 분석됐다.
98.25% 정확도로 세 종류 음악 완벽 구분
최종 모델은 통계 분석 방법 중 하나인 로지스틱 회귀분석을 사용해 만들어졌다. 테스트에서 98.25%의 정확도를 기록했고, 5번 반복 검증에서도 안정적인 성능을 보였다.
종류별로 살펴보면 규칙 기반 프로그램이 만든 음악의 정확도가 99%로 거의 완벽했다. 이는 확률 계산과 통계 규칙으로 만든 음악이 매우 뚜렷하고 일관된 패턴을 보여 쉽게 구별할 수 있음을 보여준다.
사람이 만든 음악의 경우 재현율이 0.77로 세 클래스 중 가장 낮았다. 이는 22%의 사람 음악이 놓쳤음을 의미하며, 주로 규칙 기반 알고리즘 음악으로 잘못 분류되었다. 하지만 정밀도는 0.95로 높아서, 모델이 사람 음악이라고 예측할 때 95%의 확률로 정확했다.
대형 AI 모델이 만든 음악은 재현율 0.97로 대부분을 정확히 찾아냈다. 소수의 혼동(11곡)이 규칙 기반 알고리즘 음악으로 향했는데, 이는 두 AI 생성 기술이 일부 기본적인 음악 문법 수준에서 공통점을 공유하기 때문으로 분석된다.
AI 음악 판별 기술이 가져올 산업 변화는?
이번 연구가 보여준 98.25%의 높은 정확도는 음악 산업에 상당한 파급효과를 가져올 것으로 예상된다. 특히 음악 스트리밍 플랫폼들이 AI 생성 음악을 별도로 분류하거나 표시해야 하는 규제가 강화될 경우, 이런 기술이 필수적인 도구가 될 수 있다.
현재 AI가 만든 음악의 저작권 귀속은 여전히 모호한 상황이지만, 이 기술을 통해 AI 생성 여부를 명확히 구분할 수 있다면 저작권 분쟁 해결에 객관적 근거를 제공할 수 있다. 특히 음악 제작자들이 자신의 작품이 AI에 의해 학습되는 것을 거부하거나, 반대로 AI 협업을 통한 창작임을 명시하고 싶을 때 중요한 증명 수단이 될 것이다.
한편 이 기술의 한계도 주목해야 한다. 연구에서 사용된 LLM이 GPT-2 수준이었다는 점을 고려하면, 최신 AI 음악 생성 기술에 대한 판별 성능은 다를 수 있다. 수노(Suno), 유디오(Udio) 같은 고도화된 AI 음악 생성 서비스들이 만드는 음악은 더욱 정교해져 기존 판별 방식으로는 구분이 어려울 가능성이 있다. 따라서 AI 기술 발전 속도에 맞춰 판별 기술도 지속적으로 개선되어야 할 것으로 보인다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: YNote가 기존 음악 기록 방법과 어떻게 다른가요?
A: YNote는 모든 음표를 똑같이 4글자로 표현합니다. 기존 방법들은 복잡하고 들쭉날쭉했지만, YNote는 음 높이 2글자, 음 길이 2글자로 일정한 형태를 유지해 컴퓨터가 처리하기 쉽습니다.
Q: 이 기술을 실제로 어디에 쓸 수 있나요?
A: AI가 만든 음악을 찾아내거나, 음악 저작권을 보호하거나, 작품이 진짜 창작인지 확인하는 데 쓸 수 있습니다. 특히 AI가 만든 콘텐츠를 관리하고 음악 저작권 분쟁을 해결하는 데 유용할 것입니다.
Q: 98.25% 정확도면 실제로 쓸 만한가요?
A: 네, 매우 높은 정확도입니다. 특히 규칙 기반 프로그램 음악은 99% 정확도를 보여 실용적으로 충분합니다. 다만 사람이 만든 음악 찾기는 78%로 좀 더 개선할 여지가 있습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Decoding Musical Origins: Distinguishing Human and AI Composers
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.