• Home
  • AI Report
  • AI 학습 데이터 논란… 연구자들 “우리 논문 무단 사용됐다”

AI 학습 데이터 논란… 연구자들 “우리 논문 무단 사용됐다”

Establish fair rules on AI data scraping
이미지 출처: 미드저니 생성

Establish fair rules on AI data scraping

인공지능(AI) 기술이 급속도로 발전하면서 AI 모델 학습에 사용되는 데이터의 출처와 활용 방식에 대한 우려가 커지고 있다. 특히 학술 논문과 같은 창작물이 AI 학습에 무단으로 사용되는 문제가 대두되면서, 연구자들의 권리 보호와 공정한 크레딧 부여에 대한 논의가 활발해지고 있다. 이에 따라 AI 개발 기업들과 규제 기관들의 적극적인 대응이 요구되고 있다.

AI 학습 데이터로 활용되는 학술 논문

대규모 언어 모델(Large Language Model, LLM)과 이미지 생성 AI 등 생성형 AI 기술의 발전에는 방대한 양의 학습 데이터가 필요하다. 워싱턴 포스트와 앨런 인공지능 연구소(Allen Institute for Artificial Intelligence)의 조사에 따르면, PLOS와 프론티어스(Frontiers)와 같은 오픈 액세스 저널의 논문들이 메타(Meta)의 라마(Llama) 등 LLM 학습에 광범위하게 사용된 것으로 나타났다. 비공개 학술 논문들 역시 AI 학습에 활용됐을 가능성이 높은 것으로 추정된다.

챗GPT(ChatGPT)를 비롯한 유명 AI 제품들의 정확한 학습 데이터 출처는 알려져 있지 않다. 그러나 웹에서 수집된 수백만 건의 학술 논문이 텍스트 생성 LLM과 이미지 생성 알고리즘의 학습 데이터에 포함되어 있는 것으로 보인다. 특히 정보가 풍부한 장문의 텍스트인 과학 논문은 AI 학습에 매우 가치 있는 자료로 평가받고 있다.

‘오픈’이라고 불리는 LLM조차도 개발자들이 학습에 사용된 정확한 데이터에 대해 공개하지 않는 경우가 많다. 이는 AI 기술의 발전과 함께 데이터의 투명성과 공정한 사용에 대한 문제를 제기하고 있다.

저작권 문제와 법적 대응

AI 학습을 위한 데이터 수집과 활용이 저작권 침해에 해당하는지, 혹은 예외 조항에 포함되는지에 대해서는 아직 명확한 기준이 없다. 세계지식재산기구(WIPO)는 이에 대한 법적 해석이 불분명하다고 밝혔다. 일부 출판사들은 법원을 통해 이 문제를 해결하려 하고 있다. 대표적으로 뉴욕타임스는 마이크로소프트(Microsoft)와 오픈AI(OpenAI)를 상대로 자사 기사를 무단으로 AI 학습에 사용했다며 소송을 제기한 상태다.

이러한 법적 리스크를 피하기 위해 일부 AI 기업들은 저작권자로부터 라이선스를 구매하는 방식을 택하고 있다. 콘텐츠 소유자들 역시 웹사이트에 AI 학습용 데이터 수집을 제한하는 코드를 삽입하는 등의 대응을 하고 있다.

크리에이티브 커먼즈(Creative Commons)와 같은 자유로운 배포와 재사용을 장려하는 라이선스 하에 발표된 자료의 경우, 상황이 더욱 복잡해진다. 크리에이티브 커먼즈는 AI 학습을 위한 자료 복사가 일반적으로 저작권 침해로 취급되어서는 안 된다고 말한다. 그러나 동시에 AI가 크리에이티브 커먼즈 라이선스 하의 자료로 학습될 경우, 그 AI 역시 공유 자원에 기여해야 한다는 의견도 제시하고 있다.

연구자 권리 보호를 위한 대안

연구자들의 권리를 보호하면서도 AI 기술 발전을 저해하지 않기 위한 다양한 방안들이 제시되고 있다:

a) 옵트아웃(Opt-out) 기능: 연구자들이 자신의 저작물이 AI 학습에 사용되는 것을 거부할 수 있는 권리를 부여하는 것이다. EU에서는 이미 이러한 권리가 법적으로 보장되어 있으나, 실제 적용에는 어려움이 있다. 미네소타주 미니애폴리스의 스포닝(Spawning)이라는 스타트업은 창작자들이 데이터 스크래핑을 거부할 수 있는 도구를 개발했다. 오픈AI의 미디어 매니저(Media Manager) 도구 역시 창작자들이 자신의 작품이 기계 학습 알고리즘에 어떻게 사용될 수 있는지 지정할 수 있게 해준다.

b) 투명성 강화: EU의 AI 법안은 AI 모델 개발자들에게 학습에 사용된 저작물 목록을 공개하도록 요구하고 있다. 이는 창작자들의 옵트아웃 권리 행사를 용이하게 할 것으로 기대된다. 또한 다른 국가들에게도 이러한 투명성 규제의 모델이 될 수 있을 것이다.

c) 새로운 라이선스 체계: 기존 저작권법의 한계를 극복하기 위해 AI 시대에 맞는 새로운 라이선스 체계나 저작권법 개정의 필요성도 제기되고 있다. 런던 킹스 칼리지의 디지털법 학자인 실비 들라크루아(Sylvie Delacroix)는 생성형 AI 도구들이 오픈소스 운동이 구축한 데이터 생태계를 활용하면서도, 이에 따르는 상호주의와 합리적 사용에 대한 기대를 무시하고 있다고 지적한다.

d) 검색 증강 생성(Retrieval-Augmented Generation) 기술: 워싱턴 대학교의 AI 연구자 루시 루 왕(Lucy Lu Wang)은 이 기술이 AI 출력물과 관련된 논문을 인용할 수 있게 해준다고 설명한다. 이는 LLM 학습에 사용된 데이터에 대한 크레딧을 부여하지는 않지만, 관련 논문을 인용함으로써 일정 수준의 출처 표시가 가능하게 한다.

AI 기술의 발전과 함께 데이터 활용에 대한 윤리적, 법적 문제는 더욱 복잡해질 전망이다. 연구자들의 권리를 보호하면서도 AI 기술 혁신을 촉진할 수 있는 균형 잡힌 접근이 요구되는 시점이다. 특히 AI가 생성한 콘텐츠로 인터넷이 오염되는 것을 방지하고, 원본 창작을 계속 장려하는 방안을 마련하는 것이 중요하다.

규제 기관과 AI 기업들의 적극적인 대응과 함께, 이 분야에 대한 지속적인 연구와 사회적 논의가 필요할 것으로 보인다. 창작자들에게 더 많은 권한을 부여하지 않으면 현재의 시스템은 심각한 압박을 받게 될 것이다. 따라서 규제 기관과 기업들은 이 문제에 대해 신속하게 행동해야 할 것이다.

인공지능연구소의 AI 학습 데이터의 공정성에 대한 논문은 링크에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




AI 학습 데이터 논란… 연구자들 “우리 논문 무단 사용됐다” – AI 매터스