유튜브 크리에이터, 오픈AI 상대로 집단소송 제기

김하린 기자

2024.08.06 (화) 15:00

유튜브 크리에이터가 오픈AI가 수백만 개의 유튜브 영상 트랜스크립트를 무단으로 사용해 인공지능 모델을 훈련시켰다며 집단소송을 제기했다.

6일(현지시간) 테크크런치에 따르면, 매사추세츠주 출신의 유튜브 사용자 데이비드 밀레트(David Millette)는 오픈AI가 자신과 다른 크리에이터들의 영상을 몰래 트랜스크립트화해 챗GPT(ChatGPT)와 다른 생성형 AI 도구를 구동하는 모델을 훈련시키는 데 사용했다고 주장했다. 밀레트 측은 오픈AI가 이 데이터를 수집해 크리에이터들의 작업으로 상당한 이익을 얻었으며, 이는 저작권법과 유튜브의 서비스 약관을 위반한 것이라고 주장했다.

소장에는 "오픈AI의 AI 제품이 훈련 데이터셋을 통해 더 정교해질수록 현재와 잠재적 사용자들에게 더 가치 있어지며, 이들은 오픈AI의 AI 제품에 접근하기 위해 구독료를 지불한다"고 적혔다. 또한 "오픈AI 훈련 데이터셋의 상당 부분이 동의나 크레딧, 보상 없이 복사된 작품에서 나왔다"고 덧붙였다.

버서 앤 피셔(Bursor & Fisher) 법률사무소가 대리하는 밀레트는 배심원 재판을 요구하며, 오픈AI의 훈련에 데이터가 사용됐을 수 있는 모든 유튜브 사용자와 크리에이터를 대신해 500만 달러 이상의 손해배상을 청구했다.

오픈AI와 같은 생성형 AI 모델에는 실제 지능이 없다. 엄청난 수의 예시(예: 영화, 음성 녹음, 에세이)를 입력받아 모델은 주변 데이터의 맥락을 포함한 패턴을 기반으로 데이터가 발생할 가능성을 '학습'한다.

대부분의 모델은 공개 웹사이트와 웹상의 데이터셋에서 얻은 데이터로 훈련된다. 기업들은 공정 사용 원칙이 무차별적인 데이터 스크래핑과 상업용 모델 훈련을 위한 사용을 보호한다고 주장한다. 하지만 많은 저작권 소유자들은 이에 동의하지 않으며, 이러한 관행을 중단시키기 위한 소송을 제기하고 있다.

다른 데이터 원천이 고갈되면서 영상 트랜스크립트가 핵심 훈련 데이터 요소가 됐다.

오리지널리티AI(Originality.AI)의 데이터에 따르면 세계 상위 1,000개 웹사이트 중 35% 이상이 현재 오픈AI의 웹 크롤러를 차단하고 있다. 매사추세츠 공과대학(MIT)의 데이터 출처 이니셔티브가 실시한 연구에 따르면 '고품질' 출처의 데이터 중 약 25%가 AI 모델 훈련에 사용되는 주요 데이터셋에서 제한됐다. 현재의 접근 차단 추세가 계속된다면 연구 그룹 에포크AI(Epoch AI)는 개발자들이 2026년에서 2032년 사이에 생성형 AI 모델을 훈련시킬 데이터가 고갈될 것으로 예측했다.

4월 뉴욕 타임스는 오픈AI가 추가 훈련 데이터를 수집하기 위해 영상 오디오를 트랜스크립트화하는 목적으로 첫 음성 인식 모델인 위스퍼(Whisper)를 만들었다고 보도했다. 타임스에 따르면 그렉 브록맨(Greg Brockman) 오픈AI 사장을 포함한 오픈AI 팀이 위스퍼를 사용해 유튜브에서 100만 시간 이상의 영상을 트랜스크립트화했고, 이 트랜스크립트를 텍스트 생성 및 분석 모델인 GPT-4를 훈련시키는 데 사용했다.

타임스에 따르면 일부 오픈AI 직원들은 이러한 행동이 유튜브 규정에 위배될 수 있다는 점을 논의했다.

7월 프루프 뉴스는 앤트로픽(Anthropic), 애플(Apple), 세일즈포스(Salesforce), 엔비디아(Nvidia) 등의 기업들이 수십만 개의 유튜브 영상 자막이 포함된 더 파일(The Pile)이라는 데이터셋을 생성형 AI 모델 훈련에 사용했다고 보도했다. 더 파일에 자막이 포함된 많은 유튜브 크리에이터들은 이를 인지하지 못했고 동의하지도 않았다. 애플은 후에 성명을 발표해 해당 모델들을 자사 제품의 AI 기능 구동에 사용할 의도가 없다고 밝혔다.

유튜브의 모회사인 구글(Google)도 트랜스크립트를 모델 훈련에 사용하려 했다.

작년 구글은 부분적으로 생성형 AI 모델 훈련을 위해 더 많은 사용자 데이터를 활용할 수 있도록 서비스 약관을 확대했다. 이전 약관에서는 구글이 유튜브 데이터를 영상 플랫폼 외의 제품 개발에 사용할 수 있는지 명확하지 않았다. 그러나 새로운 약관은 이러한 제한을 상당히 완화했다.

오픈AI와 구글에 집단소송에 대한 의견을 요청했으며, 답변이 오면 이 기사를 업데이트할 예정이다.

오픈AI에게는 3월이 힘겹게 시작됐다.

테슬라와 X의 CEO인 일론 머스크(Elon Musk)는 4일 오픈AI와 샘 알트만(Sam Altman) CEO를 상대로 새로운 소송을 제기했다. 그는 오픈AI가 가장 정교한 기술 일부를 상업 고객들에게만 제공함으로써 원래의 비영리 사명을 저버렸다고 비난했다. 머스크는 2월 소송에서도 오픈AI에 대해 같은 주장을 했지만, 이번 새 소송에서는 오픈AI가 조직범죄 활동에도 관여하고 있다고 주장했다.