Search

생성형 AI 시대, 콘텐츠 권리 소유자의 새로운 수익 기회와 도전

How rights holders can monetize their content as training data for large language models
이미지 출처: 미드저니 생성

How rights holders can monetize their content as training data for large language models

AI 학습 데이터 시장의 부상과 불확실성

생성형 AI 기술의 급속한 발전으로 콘텐츠 권리 소유자들에게 새로운 수익 창출의 기회가 열리고 있다. AI 기업들이 대규모 언어 모델을 학습시키기 위해 양질의 데이터를 필요로 하면서, 콘텐츠 라이선싱 시장이 형성되고 있는 것이다. 그러나 이 시장은 아직 초기 단계로, 법적 불확실성과 가치 평가의 어려움 등 여러 도전에 직면해 있다.

2022년 11월 ChatGPT가 출시된 이후, 콘텐츠 권리 소유자들은 이중적인 대응을 보이고 있다. 한편으로는 OpenAI, Google, Microsoft 등 AI 기업들을 상대로 30건 이상의 저작권 침해 소송을 제기했다. 다른 한편으로는 AP통신, 악셀 슈프링거, 게티 이미지 등 주요 미디어 기업들이 AI 기업들과 콘텐츠 라이선싱 계약을 체결하고 있다.

이러한 이중적 대응은 AI 학습 데이터 시장의 불확실성을 잘 보여준다. 콘텐츠 소유자들은 AI 기술의 잠재력을 인식하면서도, 자신들의 콘텐츠가 무단으로 AI 학습에 사용되는 것을 우려하고 있다. 특히 AI가 생성한 콘텐츠가 기존 저작물의 가치를 떨어뜨릴 수 있다는 점이 큰 우려사항이다.

AI 기업들의 라이선싱 동기와 시장 현황

AI 기업들이 라이선싱에 나서는 주요 이유는 두 가지다. 첫째, 더 많은 고품질 데이터에 대한 필요성이다. AI 모델의 성능 향상을 위해서는 양질의 데이터가 필수적이다. 특히 인터넷에서 무료로 수집할 수 있는 데이터의 양이 한계에 도달하면서, 고품질의 데이터에 대한 수요가 증가하고 있다.

둘째, 법적 위험을 줄이려는 노력이다. 라이선싱을 통해 저작권 침해 소송의 위험을 낮출 수 있다. 실제로 일부 AI 기업들은 라이선싱 계약을 체결함으로써 자신들의 선의를 입증하고, 추가적인 소송을 억제하려는 전략을 취하고 있다.

현재까지 공개된 30여 건의 라이선싱 계약을 분석한 결과, 뉴스 퍼블리셔와 이미지 스톡 회사들이 가장 활발하게 거래에 참여하고 있다. 계약 기간은 대체로 짧고, 금액은 대부분 비공개다.

주목할 만한 계약으로는 Reddit와 Google의 6천만 달러 규모의 데이터 API 접근 계약, News Corp와 OpenAI의 5년간 2억5천만 달러 규모의 계약 등이 있다. 이러한 대규모 계약들은 AI 학습 데이터의 잠재적 가치를 보여주는 사례라고 할 수 있다.

산업별 라이선싱 동향과 과제

출판, 음악, 이미지, 영화·TV 등 각 산업 분야마다 AI 라이선싱에 대한 접근 방식이 다르다.

출판 업계는 새로운 수익원 창출과 AI 검색으로 인한 트래픽 감소 우려 등으로 라이선싱에 적극적이다. 특히 학술 및 전문 출판사들은 AI 기업들이 필요로 하는 특화된 데이터를 보유하고 있어 유리한 위치에 있다. 그러나 저널리스트 노조의 반발과 AI로 인한 일자리 감소 우려 등이 과제로 남아있다.

음악 업계는 자체 AI 음악 생성 도구 개발 등을 이유로 신중한 입장이다. 주요 음반사들은 AI 기업들과의 라이선싱에 소극적이며, 대신 자체적인 AI 기술 개발에 투자하고 있다. 그러나 스트리밍 시장의 성장 둔화로 인해 새로운 수익원에 대한 필요성이 커지고 있어, 향후 입장 변화 가능성도 있다.

이미지 업계는 가장 적극적으로 라이선싱에 나서고 있다. Shutterstock, Getty Images 등 주요 이미지 스톡 회사들은 AI 기업들과 대규모 라이선싱 계약을 체결했다. 이들은 또한 자체 AI 이미지 생성 도구도 개발하고 있어, AI 기술을 위협이자 기회로 동시에 인식하고 있는 것으로 보인다.

영화·TV 업계는 AI 기술 도입을 통한 제작비 절감에 관심이 있지만, 배우 초상권 등 복잡한 권리 관계로 인해 본격적인 라이선싱은 아직 이뤄지지 않고 있다. 특히 2023년 할리우드 파업에서 AI 사용이 주요 쟁점이었던 만큼, 노조와의 관계를 고려한 신중한 접근이 필요한 상황이다.

라이선싱 시장의 도전 과제

AI 학습 데이터 라이선싱 시장이 발전하기 위해서는 몇 가지 도전 과제를 해결해야 한다.

첫째, 데이터의 가치 평가 문제다. AI 학습에 사용되는 데이터의 가치를 정확히 산정하기 어려워, 적정한 라이선스 비용을 책정하는 것이 쉽지 않다. 특히 AI 모델의 출력물이 특정 학습 데이터와 직접적인 연관성을 갖지 않는다는 점에서, 개별 콘텐츠의 기여도를 측정하기 어렵다.

둘째, 법적 불확실성이다. AI 학습을 위한 데이터 사용이 저작권법상 ‘공정 이용’에 해당하는지에 대한 법적 판단이 아직 내려지지 않았다. 이로 인해 AI 기업들과 콘텐츠 소유자들 모두 불확실한 상황에서 거래를 진행해야 하는 어려움이 있다.

셋째, 기술적 한계다. AI 모델이 학습 과정에서 개별 데이터를 어떻게 처리하는지 정확히 파악하기 어렵다. 이는 라이선스 계약의 이행 여부를 모니터링하기 어렵게 만드는 요인이 된다.

향후 전망과 시사점

AI 학습 데이터 라이선싱 시장의 발전 방향은 현재 진행 중인 소송과 향후 입법·규제에 크게 영향을 받을 전망이다. 특히 AI 학습이 저작권법상 ‘공정 이용’에 해당하는지에 대한 법원의 판단이 시장의 향방을 좌우할 핵심 변수가 될 것이다.

EU의 AI법 등 각국의 AI 규제 강화 움직임도 시장 형성에 중요한 영향을 미칠 것으로 보인다. 특히 AI 모델 학습에 사용된 데이터셋 공개 의무화 등의 조치는 콘텐츠 소유자들의 협상력을 높일 수 있다.

장기적으로는 음악 저작권 관리 단체와 같은 집중 관리 시스템이 AI 학습 데이터 시장에도 도입될 가능성이 있다. 이는 거래 비용을 낮추고 시장의 효율성을 높이는 데 기여할 수 있을 것이다.

결론적으로 AI 학습 데이터 라이선싱 시장은 아직 초기 단계로, 법적·기술적 불확실성이 크다. 그러나 AI 기술의 발전과 함께 이 시장은 지속적으로 진화할 것으로 예상된다. 콘텐츠 소유자들은 이러한 변화에 유연하게 대응하면서, 자신들의 권리를 보호하는 동시에 새로운 수익 기회를 모색해야 할 것이다. AI 기업들 역시 콘텐츠 소유자들과의 협력을 통해 지속 가능한 생태계를 구축하는 데 노력을 기울여야 할 것이다.

이 새로운 시장은 기존의 콘텐츠 산업과 AI 산업 모두에 큰 영향을 미칠 것이다. 따라서 정책 입안자들과 업계 관계자들은 이 시장의 발전 추이를 주의 깊게 지켜보며, 균형 잡힌 접근 방식을 모색해 나가야 할 것이다.

기사에 인용된 리포트는 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




생성형 AI 시대, 콘텐츠 권리 소유자의 새로운 수익 기회와 도전 – AI 매터스 l AI Matters