메타(META)가 자사의 인공지능(AI) 모델을 훈련하는 과정에서 저작권 보호 콘텐츠를 활용했을 가능성이 있다는 법원 문서가 공개됐다.
해당 문서는 미국 연방 법원에 제출된 소송 'Kadrey v. Meta'에서 원고 측이 공개한 자료로, 메타 직원들이 저작권이 있는 서적을 AI 모델 학습에 활용하는 방안을 내부적으로 논의한 정황이 담겨 있다. 메타는 이에 대해 ‘공정 이용(fair use)’ 원칙을 내세우며 정당성을 주장하고 있지만, 원고 측은 이를 강하게 반박하고 있다. 이번 소송에는 작가 사라 실버먼과 타-네히시 코츠 등이 참여했다.
이전에도 법원에 제출된 문건에서 마크 저커버그 메타 CEO가 AI팀에 저작권 보호 자료를 학습 데이터로 사용할 수 있도록 승인했다는 주장이 제기된 바 있다. 또한, 메타가 일부 출판사와 AI 훈련용 데이터 라이선스 협상을 중단했다는 사실도 밝혀졌다. 그러나 최근 공개된 자료에는 메타 직원들이 내부 채팅에서 저작권 문제를 인지하면서도 AI 모델 학습을 강행하려는 논의가 포착됐다.
메타의 AI 연구팀 관계자는 대화에서 “출판사와 협상하는 대신 우리가 직접 전자책을 구매해 데이터세트를 구축하는 것도 방법”이라고 언급했으며, 또 다른 직원은 “실제로 많은 스타트업들이 비트토렌트에서 불법 다운로드한 서적을 학습에 사용하고 있다”라고 주장한 것으로 나타났다.
또한, 일부 직원들은 메타가 AI 모델을 위한 데이터 확보 과정에서 불법 서적 공유 사이트 ‘Libgen’을 활용할 가능성을 검토한 것으로 전해졌다. 이에 대해 한 직원은 "Libgen이 불법임은 분명하다"며 우려를 표했지만, 메타 AI 부문 수석 제품 관리자는 “우리가 최첨단 모델을 개발하기 위해서 필수적인 요소”라고 강조했다. 내부적으로 메타는 법적 위험을 줄이기 위한 조치를 검토했으나, 궁극적으로 Libgen 사용 여부를 공개적으로 밝히지 않는 방법 등을 고려한 것으로 드러났다.
한편, 원고 측이 새롭게 제출한 자료에는 메타가 레딧(Reddit) 데이터 역시 AI 모델 훈련에 활용했을 가능성이 있다는 정황도 포함됐다. 메타는 비공식 경로를 통해 레딧 게시글을 수집한 후 AI 학습에 사용했다는 의혹을 받고 있으며, 이는 레딧이 지난해부터 AI 기업을 대상으로 데이터 접근 비용을 부과하기 시작한 배경과 맞물린다.
최근 메타는 이번 소송의 중요성을 반영해 미국 최고 법원 변호사 출신 전문가들을 변호팀에 추가로 영입한 것으로 알려졌다. 현재까지 메타 측은 해당 의혹과 관련한 공식 입장을 밝히지 않고 있다.