Search

퍼플렉시티, AI 스크래핑 차단 사이트까지 무단 크롤링 논란

퍼플렉시티, AI 스크래핑 차단 사이트까지 무단 크롤링 논란
이미지 출처: 퍼플렉시티

테크크런치가 4일(현지 시간) 보도한 내용에 따르면, AI 스타트업 퍼플렉시티(Perplexity)가 AI 스크래핑을 명시적으로 차단한 웹사이트들의 콘텐츠를 무단으로 크롤링하고 스크래핑했다는 의혹이 제기됐다. 인터넷 인프라 제공업체 클라우드플레어(Cloudflare)에 따르면, 퍼플렉시티가 차단 규칙을 무시하고 크롤링 및 스크래핑 활동을 은밀하게 진행한 사실을 관찰했다고 월요일 발표했다. 네트워크 인프라 대기업인 클라우드플레어는 퍼플렉시티가 “웹사이트의 선호도를 우회하려는 시도”로 웹페이지를 스크래핑할 때 자신의 정체성을 숨겼다고 연구진이 밝혔다.

퍼플렉시티와 같은 AI 제품들은 인터넷에서 대량의 데이터를 수집하는 데 의존하고 있으며, AI 스타트업들은 제품 작동을 위해 오랫동안 허가 없이 인터넷에서 텍스트, 이미지, 동영상을 스크래핑해왔다.

퍼플렉시티 대변인 제시 드와이어(Jesse Dwyer)는 클라우드플레어의 블로그 게시물을 “영업용 홍보”라고 일축하며, 테크크런치에 보낸 이메일에서 게시물의 스크린샷들이 “어떤 콘텐츠도 접근하지 않았음을 보여준다”고 덧붙였다. 후속 이메일에서 드와이어는 클라우드플레어 블로그에 언급된 봇이 “심지어 우리 것도 아니다”라고 주장했다.

클라우드플레어는 고객들이 로봇 파일에 규칙을 추가하고 퍼플렉시티의 알려진 봇들을 구체적으로 차단한 후에도 퍼플렉시티가 자신들의 사이트를 크롤링하고 스크래핑한다고 불만을 제기한 후 이러한 행동을 처음 발견했다고 밝혔다. 클라우드플레어는 이후 테스트를 수행해 퍼플렉시티가 이러한 차단을 우회하고 있다는 사실을 확인했다고 말했다.

퍼플렉시티가 무단 스크래핑으로 비난받은 것은 이번이 처음이 아니다. 작년에는 와이어드(Wired) 등의 뉴스 매체들이 퍼플렉시티가 자신들의 콘텐츠를 표절했다고 주장했다. 몇 주 후 퍼플렉시티의 최고경영자 아라빈드 스리니바스(Aravind Srinivas)는 2024년 디스럽트 컨퍼런스에서 테크크런치의 데빈 콜드웨이(Devin Coldewey)와의 인터뷰에서 회사의 표절 정의를 제시해달라는 요청에 즉답하지 못했다.

해당 기사의 원문은 테크크런치에서 확인 가능하다.

이미지 출처: 퍼플렉시티




퍼플렉시티, AI 스크래핑 차단 사이트까지 무단 크롤링 논란 – AI 매터스 l AI Matters