• Home
  • News
  • 메타, 도서 불법 복제 사이트 LibGen 이용해 라마 훈련시켜

메타, 도서 불법 복제 사이트 LibGen 이용해 라마 훈련시켜

메타, 도서 불법 복제 사이트 LibGen 이용해 라마 훈련시켜
이미지출처: 메타 로고 캔바 이미지 편집

더버지가 14일(현지 시간) 보도한 내용에 따르면, 메타가 자사의 오픈소스 AI 모델 ‘라마(Llama)’를 개발하기 위해 저작권 데이터를 사용하고 이를 은폐하려 했다는 내용이 담긴 내부 커뮤니케이션 자료가 공개됐다.

캘리포니아 법원이 공개한 문서들에서 메타는 오픈AI(OpenAI)와 미스트랄(Mistral) 같은 경쟁사를 따라잡기 위해 도서 불법 복제 사이트 ‘LibGen’(Library Genesis)을 활용해 AI 시스템을 훈련하려는 계획을 세웠던 것으로 드러났다. 2023년 10월, 메타 AI 연구원 후고 투브롱(Hugo Touvron)에게 보낸 이메일에서 메타의 생성형 AI 부문 부사장 아흐마드 알-다흘레(Ahmad Al-Dahle)는 “우리의 목표는 GPT-4 수준에 도달하는 것”이라고 언급하며, “최전선을 배우고 이 경주에서 승리해야 한다”고 강조했다. 이러한 목표를 이루기 위한 계획에는 LibGen의 데이터 활용이 포함돼 있었다.

또 다른 이메일에서는 메타 제품 디렉터 소니 시어커나스(Sony Theakanath)가 AI 연구 부문 부사장 조엘 피노(Joelle Pineau)에게 보낸 서신을 통해 LibGen 데이터의 내부 사용 여부, 블로그 게시물에서 벤치마크로 활용할지, 아니면 전체 모델 훈련에 사용할지를 논의한 사실도 밝혀졌다. 시어커나스는 이메일에서 “생성형 AI(GenAI)가 라마3(Llama3) 훈련을 위해 LibGen을 사용하는 것이 승인됐다”고 적었으며, 이 결정이 메타 CEO 마크 저커버그(Mark Zuckerberg)에게 보고됐다고 덧붙였다. 시어커나스는 LibGen이 “최첨단(state-of-the-art) 성능 지표(SOTA)를 달성하는 데 필수적”이라고 주장하며, “OpenAI와 미스트랄이 이 라이브러리를 사용하고 있다는 말도 있다”고 전했다.

저작권 침해와 법적 리스크

이번에 공개된 문서는 저자 리처드 카드리(Richard Kadrey)와 코미디언 사라 실버맨(Sarah Silverman)을 포함한 다수의 작가들이 메타를 상대로 제기한 집단 소송의 일환으로 공개됐다. 이들은 메타가 불법적으로 저작권이 있는 콘텐츠를 수집해 AI 모델을 훈련시켰으며, 이는 지적재산권 법을 위반했다고 주장했다.

메타는 이를 반박하며, 저작권 자료를 AI 훈련 데이터로 사용하는 것은 합법적 ‘공정 이용(fair use)’으로 간주돼야 한다고 주장해왔다. 그러나 이번 내부 문서에서 메타는 LibGen을 사용하되 외부에는 이를 공개하지 않겠다는 방침을 세운 것으로 나타났다. 시어커나스의 이메일에 따르면, “분명히 불법 복제 또는 도난된 것으로 표시된 데이터를 제거하고, LibGen 데이터를 사용했다는 사실을 외부에서 언급하지 말아야 한다”고 지시한 것으로 드러났다. 또한, 메타는 LibGen 데이터를 사용하면서 발생할 수 있는 정책적 위험을 평가했다. 이메일에서는 “메타가 저작권이 있는 데이터를 사용했다는 미디어 보도가 규제 당국과의 협상 위치를 약화시킬 수 있다”고 경고했다.

메타의 법적 문제, 앞으로의 전망은?

메타가 AI 경쟁에서 앞서기 위해 취한 논란의 여지가 있는 접근 방식은 앞으로 법적, 윤리적 논쟁을 더욱 심화시킬 것으로 보인다. 카드리와 실버맨이 제기한 소송 일부가 지난해 기각되긴 했지만, 이번에 공개된 내부 문서가 향후 법정 공방에서 중요한 증거로 작용할 가능성이 크다. AI 모델 개발을 둘러싼 데이터 부족 문제와 저작권 논란이 격화되는 가운데, 메타와 같은 선도 기업들이 어떤 윤리적, 법적 선택을 내릴지 귀추가 주목된다.

해당 기사의 원문은 더버지에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다. 




메타, 도서 불법 복제 사이트 LibGen 이용해 라마 훈련시켜 – AI 매터스