테크크런치(TechCrunch)가 1일(현지 시간) 보도한 기사에 따르면, 오픈AI(OpenAI)가 지난 5월 창작자들의 AI 학습 데이터 포함 여부를 지정할 수 있는 도구를 개발하겠다고 약속했으나, 7개월이 지난 현재까지 이 기능을 선보이지 못했다.
미디어 매니저 개발 실패의 배경
‘미디어 매니저(Media Manager)’라 명명된 이 도구는 창작자들의 저작권이 있는 텍스트, 이미지, 오디오, 비디오를 식별하고 여러 출처에서 창작자들의 선호도를 반영하기 위한 것이었다. 이는 회사의 강력한 비판자들을 달래고 지적재산권 관련 법적 문제로부터 오픈AI를 보호하기 위한 의도였다. 테크크런치 취재에 따르면 이 도구는 내부적으로도 중요한 출시 항목으로 여겨지지 않았다. 한 전직 오픈AI 직원은 “우선순위가 아니었다”며 “솔직히 누가 이 작업을 하고 있었는지 기억도 나지 않는다”고 말했다.
회사와 협력 중인 한 외부인은 12월 테크크런치와의 인터뷰에서 과거 오픈AI와 이 도구에 대해 논의한 적이 있지만 최근에는 어떤 업데이트도 없었다고 전했다. 미디어 매니저 작업을 담당했던 법무팀의 프레드 폰 로만(Fred von Lohmann)은 10월에 시간제 컨설턴트로 전환됐다. 오픈AI는 이메일을 통해 폰 로만의 이동 사실을 테크크런치에 확인해줬다.
IP 문제와 법적 분쟁 현황
오픈AI의 AI 모델들은 예측을 하기 위해 데이터 세트의 패턴을 학습한다. 이를 통해 챗GPT(ChatGPT)는 설득력 있는 이메일과 에세이를 작성할 수 있고, 소라(Sora)는 비교적 현실적인 영상을 만들어낼 수 있다. 하지만 이는 재생산적인 특성을 가지고 있다. 특정 방식으로 프롬프트를 입력하면 모델들은 학습 데이터의 거의 완벽한 복사본을 생성한다. 예를 들어, 소라는 틱톡(TikTok)의 로고와 인기 게임 캐릭터가 등장하는 클립을 생성할 수 있으며, 챗GPT는 뉴욕타임스 기사를 그대로 인용할 수 있다.
이에 오픈AI는 현재 작가, 아티스트, 유튜버, 컴퓨터 과학자, 뉴스 기관 등이 제기한 집단소송에 직면해 있다. 사라 실버맨, 타 네히시 코츠 등의 작가와 뉴욕타임스, 라디오-캐나다 등의 미디어 기업들이 원고로 참여하고 있다.
현재의 옵트아웃 시스템과 한계
오픈AI는 현재 창작자들에게 여러 임시방편적인 ‘옵트아웃’ 방법을 제공하고 있다. 지난 9월에는 아티스트들이 자신의 작품을 향후 학습 세트에서 제외하도록 요청할 수 있는 제출 양식을 출시했다. 또한 웹마스터들이 자사의 웹 크롤링 봇이 도메인에서 데이터를 수집하는 것을 차단할 수 있도록 허용해왔다.
그러나 창작자들은 이러한 방법들이 임시방편적이고 불충분하다고 비판했다. 문자 작품, 비디오, 오디오 녹음에 대한 구체적인 옵트아웃 메커니즘이 없으며, 이미지 옵트아웃 양식은 각 이미지의 사본과 설명을 제출해야 하는 번거로운 과정을 요구한다.
오픈AI는 공개적으로 저작권 있는 자료를 사용하지 않고는 경쟁력 있는 AI 모델을 훈련시키는 것이 “불가능”할 것이라고 밝혔다. “100년 이상 된 공공 도메인 도서와 그림으로 학습 데이터를 제한하는 것은 흥미로운 실험이 될 수 있지만, 오늘날 시민들의 요구를 충족시키는 AI 시스템을 제공하지는 못할 것”이라고 회사는 영국 상원에 제출한 1월 보고서에서 밝혔다.
해당 기사의 원문은 테크크런치에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.