Cloudflare, 웹사이트 스크래핑 AI 봇 차단 지원 강화

김미래 기자

2024.07.05 (금) 21:00

인터넷 보안 업체 Cloudflare가 웹사이트 소유자들이 AI 서비스가 그들의 콘텐츠에 접근하는 것을 차단할 수 있는 "쉬운 버튼"을 출시했다. 이는 AI 모델 훈련에 사용되는 콘텐츠 수요가 급증하면서 나온 조치이다.

Cloudflare의 새로운 서비스

5일(현지시간) 디크립트에 따르면 Cloudflare는 전 세계 웹 트래픽의 거의 20%를 보호한다고 주장하는 글로벌 인터넷 보안 업체로, 이번에 웹사이트 소유자들이 AI 봇의 접근을 차단할 수 있는 새로운 설정을 출시했다고 밝혔다. 이 설정은 Cloudflare의 모든 고객, 무료 계층을 포함한 모든 사용자에게 제공된다.

Cloudflare는 "콘텐츠 제작자를 위한 안전한 인터넷을 유지하기 위해 AI 봇을 모두 차단하는 '쉬운 버튼'을 출시했다"고 발표했다. 많은 AI 회사들이 그들의 웹 스크래핑 봇을 적절하게 식별하고 웹사이트의 지침을 준수하지만, 모든 회사가 투명하게 행동하지는 않는다.

AI 봇 활동 분석

Cloudflare는 발표와 함께 자사의 시스템에서 관찰한 AI 크롤러 활동에 대한 정보를 공유했다. 데이터에 따르면, 6월에 Cloudflare를 사용하는 상위 100만 "인터넷 속성" 중 약 39%가 AI 봇에 의해 접근되었다. 그러나 이 중 2.98%만이 이러한 요청을 차단하거나 도전하였다. 더 높은 순위(더 인기 있는) 인터넷 속성일수록 AI 봇의 표적이 될 가능성이 높다.

Cloudflare는 TikTok 소유주 ByteDance, Amazon, Anthropic, OpenAI가 운영하는 웹 크롤러가 가장 활발하게 활동했다고 밝혔다. ByteDance의 Bytespider는 요청 수, 활동 범위, 차단 빈도에서 가장 높은 순위를 기록했다. OpenAI의 GPTBot은 크롤링 활동과 차단에서 두 번째로 높은 순위를 차지했다.

AI 봇 차단 전략

웹사이트 소유자들은 알려진 웹 크롤러를 차단하는 규칙을 구현할 수 있지만, Cloudflare는 대부분의 고객들이 OpenAI, Google, Meta와 같은 주류 AI 개발자들만 차단하고 ByteDance 등의 상위 크롤러는 차단하지 않는다고 밝혔다.

AI 봇 운영자들이 차단 조치를 피하기 위해 합법적인 웹 트래픽으로 위장하는 속임수 전술을 사용하는 것도 발견되었다. Cloudflare는 "봇 운영자들이 가짜 사용자 에이전트를 사용하여 실제 브라우저인 것처럼 보이려고 시도하고 있다"고 밝혔다.

Cloudflare는 자사의 대규모 글로벌 인터넷 트래픽 데이터를 사용하여 각 요청에 "봇 점수"를 할당하는 머신러닝 모델을 사용한다. 낮은 점수는 활동이 합법적일 가능성이 낮음을 나타낸다.

웹 콘텐츠 보호

생성형 AI 모델은 기존 콘텐츠의 방대한 양에 의존하며, 대부분은 웹에서 수집된다. AI가 최신 정보를 제공하려면 대규모로 정보를 계속 수집해야 한다. 웹사이트 소유자와 콘텐츠 제작자들은 이에 반발하고 있으며, 뉴스 조직과 같은 대형 출판사들은 AI 회사들을 상대로 법적 조치를 취하고 있다.

AI가 점점 더 사용자에게 정보를 제공하면서 원본 사이트로의 방문을 유도하지 않으면, 이는 출판사들에게 존재론적 위협이 될 수 있다. SparkToro의 CEO Rand Fishkin이 발표한 최근 연구에 따르면, Google에서 정보를 검색하는 사람들 중 60%가 Google의 AI가 즉시 요약된 답변을 제공하기 때문에 원본 사이트를 방문하지 않는다고 한다.

뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기

광고문의 기사제보 보도자료

많이 본 기사