아마존이 금요일 보도에 따르면, AI 스타트업 퍼플렉시티가 무단으로 다른 웹사이트의 콘텐츠를 스크래핑(scraping)하여 클라우드 부서 규정을 위반한 혐의로 조사 중이다.
28일(현지시간) 뉴욕포스트에 따르면, 최근 30억 달러 평가를 받은 퍼플렉시티는 뉴스 출판사와 다른 사이트들이 자동화된 봇에 스크래핑을 금지하는 페이지를 지정하는 로봇 배제 프로토콜(robots.txt)을 무시하고 있다고 테크 매체 와이어드(Wired)가 보도했다.
이 표준을 따르는 것은 법적으로 필수는 아니지만, 대부분의 인터넷 회사는 이를 준수한다. 퍼플렉시티와 같은 아마존 웹 서비스(AWS)를 이용하는 웹사이트의 경우, 준수가 필수적이다.
아마존 웹 서비스 대변인은 성명에서 "AWS의 서비스 약관은 남용 및 불법 활동을 금지하며, 고객은 해당 약관을 준수할 책임이 있다. 우리는 다양한 출처로부터 남용 보고를 정기적으로 받고 있으며, 고객과 협력하여 해당 보고를 이해하고 있다"고 밝혔다.
퍼플렉시티의 관행에 대한 감시는 포브스가 이 회사가 자사 기자와 CNBC 및 블룸버그의 기사를 "직접 도용했다"고 비난한 이후로 강화되었다.
와이어드는 자체 조사에서 퍼플렉시티가 자사의 콘데 나스트(Condé Nast)가 운영하는 웹사이트에 접근을 차단하려고 했음에도 불구하고 "공개되지 않은 IP 주소"를 사용해 스크래핑했다고 밝혔다.
포브스, 뉴욕 타임스, 가디언을 포함한 다른 매체들의 서버를 동일한 IP 주소가 방문한 것을 확인했다고 전했다.
퍼플렉시티 대변인 사라 플래트닉은 와이어드의 보도가 "부정확하다"고 반박했다.
플래트닉은 성명에서 "AWS에서 운영되는 퍼플렉시티봇은 robots.txt를 준수하며, 퍼플렉시티가 제어하는 서비스는 AWS 이용 약관을 위반하는 방식으로 크롤링하지 않는다"고 말했다.
또한 "AWS는 와이어드의 미디어 문의를 조사하는 표준 절차의 일환으로 검토했으며, 와이어드 기자가 연락하기 전까지 AWS로부터 어떤 소식도 듣지 못했다. 와이어드의 특정 문의 외에 AWS가 퍼플렉시티를 조사하고 있다는 말은 사실이 아니다. AWS는 퍼플렉시티에 소중한 파트너이며, 지속적인 협력에 감사드린다"고 덧붙였다.
플래트닉은 퍼플렉시티봇이 사용자가 특정 URL을 쿼리에 포함하는 "매우 드문" 경우에 robots.txt 프로토콜을 우회할 수 있다고 와이어드에 말했다.
퍼플렉시티 CEO 아라빈드 스리니바스는 와이어드의 발견에 대해 "퍼플렉시티와 인터넷이 작동하는 방식에 대한 깊고 근본적인 오해를 반영한다"고 비난했다.
포브스는 제3자 뉴스 매체의 기사를 세부적으로 수집하여 표시하는 "퍼플렉시티 페이지" 기능에 문제를 제기했다.
원 저자 이름이 언급되지 않았으며, 퍼플렉시티의 게시물 내용이 소스 텍스트와 유사할 때도 있었다.
대신 퍼플렉시티는 원본 소스로 연결되는 "작고 눈에 띄지 않는 로고"를 사용했다.
한 예로, 퍼플렉시티의 챗봇이 구글 전 CEO 에릭 슈미트의 군용 드론 프로젝트에 대한 포브스의 독점 유료 기사 버전을 만들어냈다.
포브스 편집장 존 파츠코스키는 X에 "에릭 슈미트의 스텔스 드론 프로젝트에 대한 우리의 기사가 퍼플렉시티에 의해 이른 아침에 게시되었다. 대부분의 우리의 보도를 도용했다. 우리를 비롯해 우리 기사를 재블로그한 몇몇을 출처로 가장 쉽게 무시할 수 있는 방식으로 인용했다"고 적었다.
스리니바스는 이 도구가 "거친 부분"이 있지만, 잘못은 없다고 부인했다.
뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기