• Home
  • AI Report
  • AI 학습, 저작권 침해일까? 미국 저작권청, AI 저작권 가이드 발표

AI 학습, 저작권 침해일까? 미국 저작권청, AI 저작권 가이드 발표

Copyright and Artificial Intelligence Part 3: Generative AI Training pre-publication version
이미지 출처: 저작권청

Copyright and Artificial Intelligence Part 3: Generative AI Training pre-publication version


저작권 단체 vs AI 기업, 저작물 무단 활용을 둘러싼 첨예한 대립

미국 저작권청이 발표한 ‘저작권 및 인공지능 보고서 제3부: 생성형 AI 훈련’ 보고서는 생성형 AI의 발전 과정에서 저작물의 활용과 관련한 저작권 쟁점을 심도 있게 분석했다. 이 보고서는 생성형 AI 시스템이 방대한 양의 저작물을 훈련 데이터로 활용하는 과정에서 발생하는 저작권 침해 여부와 공정이용 적용 가능성을 다루고 있다.

저작권청은 “이 문제는 치열한 논쟁의 대상이며, 현재 미국에서는 수십 건의 소송이 공정이용 원칙의 적용을 중심으로 진행 중”이라고 밝혔다. 특히 “AI 기업이 저작물 이용에 라이선스를 취득해야 한다면 필요한 양과 다양성의 콘텐츠를 확보하는 것이 현실적으로 불가능하기 때문에 혁신적 기술 발전이 저해될 것”이라는 주장과 “무허가 학습은 창작 생태계를 훼손하고 예술가들의 작품 전체가 그들의 의사에 반하여 시장에서 경쟁하는 콘텐츠 생산에 이용될 것”이라는 우려가 대립하고 있다.

복제에서 배포까지: AI 개발 과정의 4단계 저작권 침해 가능성

생성형 AI 모델은 방대한 데이터를 학습하여 새로운 콘텐츠를 생성한다. 이 과정은 크게 기계 학습 적용, 학습 데이터 수집 및 정제, 모델 훈련, 그리고 배포 단계로 구분된다.

기계 학습은 신경망을 구축하여 입력 데이터를 출력 데이터로 변환하는 함수를 만드는 과정이다. 현대 신경망은 수십억 개의 매개변수(파라미터)를 가지고 있으며, 이를 통해 텍스트에서 비디오로의 변환과 같은 복잡한 작업을 수행할 수 있다.

언어 모델의 경우, ‘생성적 사전 훈련(generative pre-training)’ 기법이 주로 사용된다. 이 방식은 문맥을 기반으로 다음 토큰(단어나 문자의 부분)을 예측하는 방식으로, 대용량 데이터셋을 학습하면 다양한 작업에 활용할 수 있는 모델을 만들 수 있다.

저작권청은 “미 저작권법 제107조에 명시된 공정이용은 판사가 만든 원칙으로, 저작물의 공정한 이용은 저작권 침해가 아니며, 이를 판단하기 위한 네 가지 비배타적 요소를 고려해야 한다”고 설명했다. 이 요소들은 이용의 목적과 성격, 저작물의 성격, 이용된 부분의 양과 실질성, 잠재적 시장이나 가치에 미치는 영향이다.

“AI 학습은 인간 학습과 다르다”: 저작권청의 공정이용 네 가지 요소 분석

보고서는 AI 개발과 배포 과정에서 여러 행위가 저작권 침해에 해당할 수 있다고 분석했다.

데이터 수집 및 정제 과정에서는 저작물을 다운로드하고, 저장 매체 간에 전송하며, 다른 형식으로 변환하는 등의 복제 행위가 발생한다. 대부분의 의견 제출자들은 이 과정이 복제권을 침해할 수 있다는 데 동의했다.

훈련 과정에서도 저작권 침해가 발생할 수 있다. 훈련 데이터셋을 다운로드하여 고성능 저장소에 복사하는 과정과 훈련 중 작품이나 상당 부분을 일시적으로 복제하는 과정이 모두 복제권 침해에 해당할 수 있다. 또한, 모델이 특정 훈련 예제를 ‘기억’하여 저작물의 사본을 생성할 수 있는 경우, 모델 가중치(weights)의 복사도 침해가 될 수 있다.

검색 증강 생성(RAG) 기술을 사용하면 생성 과정에서 외부 저작물을 검색하여 활용하는데, 이 과정에서도 저작물의 복제가 발생한다.

끝으로, 생성형 AI 모델이 저작물을 복제하거나 유사하게 흉내낸 산출물을 생성하는 경우, 복제권과 2차적 저작물 작성권을 침해할 수 있다.

전체 작품 복제는 공정이용일까?: 저작권청 “허용될 수 있지만 Google Books 판결과는 다른 맥락”


AI 훈련에서의 저작물 이용이 공정이용에 해당하는지에 대해 의견이 첨예하게 대립했다. 저작권청은 이러한 다양한 의견을 검토하고 공정이용의 네 가지 요소를 분석했다.

첫 번째 요소인 이용의 목적과 성격 측면에서, 변형적 이용(transformative use)과 상업성이 핵심 쟁점이다. 대용량 다양한 데이터셋으로 기초 모델을 훈련하는 것은 변형적 이용일 수 있지만, 그 정도는 모델의 기능과 배포 방식에 따라 달라진다. 연구나 비대체적 작업을 위한 모델 훈련은 매우 변형적이지만, 훈련 데이터셋의 저작물과 유사한 출력물을 생성하기 위한 훈련은 변형적이지 않을 수 있다.

두 번째 요소인 저작물의 성격은 창의적인 저작물(소설, 영화, 예술, 음악 등)을 이용하는 경우 사실적이거나 기능적인 저작물을 이용하는 경우보다 공정이용에 해당할 가능성이 낮다. 생성형 AI 모델은 다양한 저작물을 훈련 데이터로 사용하므로, 이용되는 저작물의 성격에 따라 이 요소의 평가가 달라질 수 있다.

세 번째 요소인 이용된 부분의 양과 실질성 측면에서, AI 훈련에서는 일반적으로 저작물의 전체 또는 상당 부분을 이용한다. 이는 공정이용에 불리하게 작용할 수 있지만, 변형적 목적이 있고 데이터의 대규모가 효과적인 일반화에 필요한 경우에는 전체 저작물의 이용이 합리적일 수 있다.

네 번째 요소인 잠재적 시장이나 가치에 대한 영향에서는 AI 훈련이 저작물 시장에 미치는 영향을 평가한다. 모델이 훈련 데이터와 실질적으로 유사한 출력물을 생성하여 직접 대체할 경우 판매 손실이 발생할 수 있다. 또한, AI 생성 콘텐츠가 시장을 희석시키거나 라이선싱 기회를 상실시킬 가능성도 있다.

이미 형성되는 AI 훈련용 라이선싱 시장: 2023년 이후 급속도로 증가한 계약 사례

저작권청은 저작물 이용에 공정이용이 적용되지 않는 경우의 라이선싱 방안도 검토했다. 자발적 라이선싱, 법정 라이선스, 확장된 집중 관리 제도 등 다양한 옵션의 장단점을 분석했다.

자발적 라이선싱은 당사자가 특정 저작물 이용에 맞게 조건을 설정할 수 있게 해준다. 이미 여러 분야에서 AI 훈련을 위한 자발적 라이선싱이 증가하고 있으나, 모든 유형의 저작물과 모델에 적용 가능한지는 의문이다.

법정 라이선스는 저작권자의 동의 없이 저작물 이용을 허용하는 법적 장치다. 그러나 대부분의 의견 제출자는 이를 반대했으며, 저작권청도 “법정 라이선스는 저작자의 저작물 통제권에 대한 침해”라며 “시장이 작동할 수 없는 예외적인 경우에만 제정되어야 한다”고 경고했다.

확장된 집중 관리 제도(ECL)는 집중 관리 단체가 특정 클래스의 모든 저작물을 라이선스할 수 있는 권한을 부여받는 방식이다. 이는 법정 라이선스보다 더 유연하며, 저작권자가 선택적으로 참여할 수 있다는 장점이 있다.

저작권청의 최종 제안: “지금은 시장에 맡기되, 필요시 ECL 도입 고려”

저작권청은 “AI 훈련에서 저작물의 다양한 이용이 변형적일 가능성이 높지만, 공정이용 여부는 이용된 저작물, 출처, 목적, 산출물에 대한 통제 등 다양한 요소에 따라 달라질 것”이라고 결론지었다.

분석과 토대로 저작권청은 “현 시점에서는 정부 개입 없이 라이선싱 시장이 발전하도록 허용할 것”을 권고했다. 특정 유형의 저작물에 대한 시장 실패가 증명될 경우, ECL과 같은 대안을 고려해야 한다고 제안했다.

저작권청은 “미국의 AI 분야 리더십은 경제적, 문화적 발전에 크게 기여하는 세계적 수준의 두 산업을 모두 지원함으로써 가장 잘 발전될 것”이라며 “효과적인 라이선싱 옵션은 지적재산권을 훼손하지 않으면서 혁신이 계속 발전하도록 보장할 수 있다”고 강조했다.

FAQ

Q: 생성형 AI 모델이 저작물을 ‘기억’한다는 것은 무슨 의미인가요?

A: 생성형 AI 모델이 저작물을 ‘기억’한다는 것은 훈련 과정에서 학습한 저작물의 표현을 모델 가중치에 저장하여, 사용자의 프롬프트에 따라 원본과 유사하거나 동일한 표현을 재생산할 수 있는 능력을 의미합니다. 이러한 기억은 AI 개발자들이 의도하지 않은 부작용으로 여겨지기도 하지만, 연구에 따르면 일부 모델은 훈련 데이터의 약 1% 정도를 기억하는 것으로 나타났습니다.

Q: 생성형 AI 훈련에서 저작물 이용이 공정이용에 해당하기 위한 핵심 조건은 무엇인가요?

A: 공정이용 판단의 핵심 조건은 이용의 변형적 성격과 시장 영향입니다. 연구나 분석 목적으로 저작물을 이용하고, 출력물이 원본 저작물과 경쟁하지 않도록 효과적인 통제 장치가 있으며, 훈련 데이터에 대한 합법적 접근 권한이 있는 경우 공정이용에 해당할 가능성이 높습니다. 반면, 불법 출처에서 표현적 저작물을 복제하여 시장에서 경쟁하는 제한 없는 콘텐츠를 생성하는 경우, 특히 라이선싱이 합리적으로 가능함에도 이를 회피한다면 공정이용에 해당할 가능성이 낮습니다.

Q: AI 훈련을 위한 저작물 라이선싱 시장은 어떻게 발전하고 있나요?

A: AI 훈련을 위한 저작물 라이선싱 시장은 빠르게 성장하고 있습니다. 개별 및 집단 라이선싱 계약이 이미지, 오디오-비주얼 작품, 학술 출판물, 뉴스 등 여러 분야에서 체결되고, 다양한 콘텐츠 집계자들이 훈련 자료의 집단 라이선싱을 제공하거나 촉진하고 있습니다. 또한 일부 AI 회사들은 오픈소스 모델을 출시하여 다른 개발자들이 모델을 실험하거나 제품화할 수 있도록 지원하고 있습니다. 그러나 라이선싱 시장은 여전히 초기 단계이며, 모든 유형의 저작물과 모델에 적용 가능한지는 불분명합니다.

해당 기사에서 인용한 보고서는 링크에서 확인할 수 있다.

이미지 출처: 미국 저작권청

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




AI 학습, 저작권 침해일까? 미국 저작권청, AI 저작권 가이드 발표 – AI 매터스