영국의 비영리 단체가 대규모 언어 모델(LLM) 개발자들이 저작권이 있는, 콘텐츠를 학습 데이터로 사용하면서 출판사에 대가를 지불할 수 있는 새로운 라이선스 모델을 도입할 계획이다. 영국 저작권 라이선싱 에이전시(Copyright Licensing Agency, CLA)는 2025년 3분기에 생성형 AI 학습 라이선스(Generative AI Training Licence)를 출시할 예정이라고 밝혔다.
더 레지스터(The Register)가 24일(현지 시간) 보도한 내용에 따르면, 이 라이선스는 특히 직접적인 라이선스 계약을 협상할 수 없는 출판사와 작가들에게 보상을 제공하고, 모든 규모의 AI 개발자들에게 저작권이 있는 학습 데이터에 접근하는 데 필요한 “법적 확실성”을 제공할 것이라고 전했다. CLA는 영국의 라이선싱 그룹을 대표하는 비영리 기관이다. 출판사 라이선싱 서비스(Publishers’ Licensing Services)와 작가 라이선싱 및 콜렉팅 소사이어티(ALCS Authors’ Licensing and Collecting Society)가 생성형 AI 학습 라이선스 출시에 함께할 것이라고 밝혔다.
CLA의 CEO인 맷 플레거(Mat Pfleger)는 “저작권이 있는 콘텐츠로 AI 모델을 학습시키려면 허가와 보상이 필요하다. CLA의 집단 라이선스는 라이선싱이 해답이며 효율적이고 효과적인 시장 기반 솔루션을 제공할 수 있음을 더욱 입증할 것이다. 우리의 목표는 양질의 콘텐츠에 접근할 수 있는 명확하고 합법적인 경로를 제공하는 것이다. 이를 통해 혁신가들이 저작권을 존중하고 그들의 작품이 사용되는 경우 저작권 소유자와 창작자들에게 보상하면서 혁신적인 생성형 AI 기술을 개발할 수 있도록 하는 것”이라고 말했다.
CLA가 직면할 가능성이 높은 문제는 기술 산업이 제품을 개발하거나, 인수합병 거래를 체결하거나, 소셜 미디어 플랫폼을 구축하거나, 소프트웨어 감사를 시작하기 전에 법적 확실성을 기다리지 않는다는 점이다. 사실, 법적 불확실성이 정부, 상업 및 문화를 효과적으로 지배할 수 있도록 성장한 비옥한 토양을 만들었다고 주장할 수 있다. 법적 확실성이 도착할 때쯤이면, 말은 이미 달아나 모리셔스행 비행기에 탑승하고 수영장 옆에서 진 토닉을 마시고 있을 것이다. 예를 들어, 3,000억 달러 가치의 오픈AI(OpenAI)는 미국 정부 협의에 응하여 생성형 AI 모델을 학습시키기 위해 원하는 모든 데이터에 접근할 수 있어야 하며, 외국이 자사와 다른 미국 AI 기업들에 저작권 규칙을 적용하려는 시도를 중단해야 한다고 주장했다.
한편, 영국 정부의 AI와 저작권에 관한 협의가 최근 종료됐다. 이 협의는 텍스트 및 데이터 마이닝(TDM)에 대한 저작권 면제를 제안했다. “권리 보유 메커니즘이 있는 TDM 예외를 탐색하고 향상된 투명성 조치를 통해 뒷받침하는 것이 라이선스 계약을 촉진하는 실행 가능한 방법일 수 있다. 이는 저작권 소유자와 AI 개발자 모두의 요구를 충족시킬 것”이라고 밝혔다. 이는 오라클(Oracle)이 후원하는 싱크탱크인 토니 블레어 글로벌 체인지 연구소(Tony Blair Institute for Global Change)가 선호하는 입장이다.
그런 다음 이미 학습 데이터로 사용된 저작권 자료에 대한 문제가 있다. Books3는 일반적으로 사용되는 데이터셋으로, 일반 텍스트 형식의 196,640권의 책을 포함하고 있으며, 영국 출판사협회(Publishers Association)는 이를 통해 “절대적으로 대규모”의 저작권 침해가 가능해졌다고 말했다. 더 애틀랜틱(The Atlantic)에 따르면, 메타(Meta)와 다른 생성형 AI 개발자들이 데이터셋 LibGen을 통해 수백만 권의 저작권이 있는 책과 연구 논문에 접근했을 수 있다고 주장했다. 연구자들은 오픈AI도 같은 행동을 했을 것이라고 추측했으며, 이러한 주장은 저작권이 있는 자료의 사용에 관한 소송의 일부다. 영국 작가들은 자신들의 저작권이 있는 책이 해당 데이터베이스에 있다는 사실을 알고 경악했다.
이 문제는 단순히 법적 문제에 그치지 않는다. 실질적인 AI 발전과 저작권자의 권리 사이에서 균형을 맞추는 것이 중요하다. 생성형 AI가 발전함에 따라 이러한 문제는 더욱 복잡해질 수 있으며, CLA의 새로운 라이선스 모델이 이러한 문제 해결에 도움이 될 수 있을지는 아직 지켜봐야 할 문제다. 앤트로픽(Anthropic)이나 제미나이(Gemini)와 같은 주요 AI 기업들이 이러한 라이선스 모델을 어떻게 받아들일지, 그리고 이미 대규모로 사용된 저작권 자료에 대한 법적 분쟁은 어떻게 해결될지가 향후 AI 산업의 중요한 변곡점이 될 것이다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: CLA
기사는 클로드와 챗gpt를 활용해 작성되었습니다.