AI 칩을 만드는 거대 기업 엔비디아가 인공지능을 학습시키기 위해 불법으로 복제된 책 수백만 권을 확보하려고 불법 복제물을 배포하는 해적판 사이트에 직접 연락했다는 의혹이 나왔다.
20일(현지 시각) 토렌트프릭(TorrentFreak)에 따르면, 여러 작가들이 엔비디아를 상대로 낸 소송에서 회사 내부 문서를 증거로 제시하며 이같이 주장했다.
엔비디아는 AI 붐으로 큰돈을 번 기업이다. AI 학습에 필요한 칩과 데이터센터 서비스가 잘 팔리면서 매출이 급증했다. 엔비디아는 하드웨어를 파는 것뿐 아니라 니모(NeMo), 레트로-48B(Retro-48B) 같은 자체 AI 모델도 개발하고 있다. 이런 AI 모델은 다른 기술 기업들처럼 엄청난 양의 텍스트 자료로 학습시킨다.
토렌트프릭에 따르면, 작가들은 2024년 초 엔비디아가 저작권을 침해했다며 소송을 냈다. 작가들은 엔비디아의 AI 모델이 해적판 사이트 비블리오틱(Bibliotik)에서 가져온 책들이 담긴 ‘북스3(Books3)’라는 자료로 학습됐다고 주장했다. 허락 없이 이뤄진 일이기 때문에 보상을 요구했다.
엔비디아는 자신들의 행위가 합법적인 공정 이용이라고 반박했다. 책은 AI 모델에게 그저 통계 자료일 뿐이라는 것이다. 하지만 의혹은 사라지지 않았다. 오히려 작가 측은 재판 과정에서 증거를 더 찾아냈다.
토렌트프릭에 따르면, 지난 금요일 작가들은 소송 범위를 크게 넓힌 서류를 법원에 냈다. 아브디 나제미안(Abdi Nazemian) 등의 작가들은 엔비디아 내부 이메일과 문서를 인용하며, 회사가 직접 저작권이 있는 책 수백만 권을 다운로드했다고 주장했다.
새 소송 서류는 “경쟁이 심해지자 엔비디아가 불법 복제에 손을 댔다”며, 논란이 많은 ‘안나의 아카이브(Anna’s Archive)’라는 해적판 도서관과 협력했다고 밝혔다. 소송 서류에 따르면 엔비디아의 데이터 전략팀 직원은 안나의 아카이브에 연락해서 무엇을 제공받을 수 있는지 알아봤다.
소송 서류는 “책이 절실했던 엔비디아는 현존하는 해적판 도서관 중 가장 크고 대담한 안나의 아카이브에 연락해 불법 복제 자료 수백만 개를 받아서 ‘우리 AI 학습 데이터에 안나의 아카이브를 포함시키는 것’에 대해 물었다”고 밝혔다.
안나의 아카이브는 불법 복제물을 ‘빠른 속도로 받기’ 위해 수만 달러를 요구했고, 엔비디아는 이 ‘빠른 접근’이 어떤 것인지 알아보려 했다고 한다.
소송 서류에 따르면 안나의 아카이브는 엔비디아에게 자신들의 도서관이 불법으로 만들어지고 운영되고 있다고 경고했다. 이전에 다른 AI 기업들과 시간을 낭비한 적이 있던 이 해적판 사이트는 엔비디아 임원들에게 회사 내부 승인을 받았는지 확인했다.
이 승인은 일주일 안에 났고, 그 후 안나의 아카이브는 엔비디아에게 불법 복제 책에 접근할 수 있는 권한을 줬다. 소송 서류는 “안나의 아카이브에 연락한 지 일주일 만에, 그리고 불법이라는 경고를 받은 지 며칠 만에 엔비디아 경영진은 불법 복제를 진행하라는 ‘승인’을 내렸다. 안나의 아카이브는 엔비디아에게 불법 복제된 책 수백만 권을 제공했다”고 밝혔다.
소송 서류에 따르면 안나의 아카이브는 엔비디아에게 약 500테라바이트 분량의 자료를 주겠다고 약속했다. 여기에는 보통 인터넷 아카이브(Internet Archive)의 디지털 대출 시스템을 통해서만 볼 수 있는 책 수백만 권이 포함됐다. 인터넷 아카이브 역시 법적 문제에 휘말려 있다. 엔비디아가 결국 안나의 아카이브에 돈을 지불했는지는 소송 서류에 명시되지 않았다.
토렌트프릭에 따르면, 엔비디아는 다른 불법 출처도 사용한 의혹을 받고 있다. 이전에 문제가 됐던 북스3 외에도, 새 소송 서류는 회사가 립젠(LibGen), 사이허브(Sci-Hub), 지라이브러리(Z-Library)에서도 책을 다운로드했다고 주장했다.
자기들이 AI를 학습시키려고 불법 복제 책을 다운로드한 것 외에도, 작가들은 엔비디아가 기업 고객들에게 북스3 불법 자료가 들어간 ‘더 파일(The Pile)’을 자동으로 다운로드할 수 있는 프로그램과 도구를 나눠줬다고 주장했다.
이런 주장들 때문에 엔비디아가 직접 침해하지는 않았지만 도와주거나 대신 침해했다는 새로운 혐의가 추가됐다. 엔비디아가 이런 불법 복제 자료에 접근하게 해주면서 고객들로부터 돈을 벌었다는 것이다.
이런 이유로 작가들은 자신들이 입은 피해를 보상해달라고 요구했다. 이는 이름을 밝힌 작가들뿐 아니라 나중에 소송에 합류할 수 있는 수백 명의 다른 작가들에게도 해당된다.
해당 기사의 원문은 토렌트프릭에서 확인 가능하다.
이미지 출처: 엔비디아






