애플은 향후 iOS, macOS, iPadOS에 도입될 생성 AI 기능을 위한 모델을 개발하는 과정에서 사적 사용자 데이터를 사용하지 않고 공개적으로 이용 가능한 데이터와 라이선스 데이터를 활용했다고 밝혔다.
30일(현지시간) 테크크런치에 따르면, 애플은 앞으로 몇 달 동안 iOS, macOS 및 iPadOS에 도입될 생성 AI 기능을 위한 '애플 인텔리전스(Apple Intelligence)'를 지원하기 위해 개발한 모델을 상세히 기술한 논문을 발표했다.
이 논문에서 애플은 일부 모델 훈련에 윤리적으로 의문이 제기된 접근 방식을 사용했다는 비난에 반박하며, 사적 사용자 데이터를 사용하지 않고 공개적으로 이용 가능한 데이터와 라이선스 데이터를 조합하여 애플 인텔리전스를 구축했다고 재차 강조했다.
애플은 논문에서 "사전 훈련 데이터 세트는 출판사로부터 라이선스를 받은 데이터, 공개적으로 이용 가능한 데이터 세트 및 애플봇(Applebot) 웹 크롤러를 통해 수집된 공개 정보로 구성된다"고 밝혔다. "사용자 프라이버시 보호에 중점을 두고, 사적 애플 사용자 데이터는 데이터 혼합물에 포함되지 않았다."
7월에 프루프 뉴스(Proof News)는 애플이 수천 개의 유튜브 비디오 자막을 포함한 데이터 세트인 '더 파일(The Pile)'을 사용하여 기기 내 처리용으로 설계된 모델을 훈련시켰다고 보도했다. 많은 유튜브 크리에이터들은 자신의 자막이 더 파일에 포함된 것을 알지 못했고 이에 동의하지 않았으며, 애플은 나중에 이러한 모델을 제품의 AI 기능에 사용하려는 의도가 없다고 발표했다.
애플은 2024년 6월 WWDC에서 처음 공개한 모델인 '애플 파운데이션 모델(AFM)'의 훈련 데이터가 적어도 애플의 정의에 따르면 '책임감 있게' 소싱되었다고 강조한다.
AFM 모델의 훈련 데이터에는 공개 웹 데이터와 알려지지 않은 출판사로부터 라이선스를 받은 데이터가 포함된다. 뉴욕 타임즈에 따르면 애플은 2023년 말 NBC, 콘데 나스트(Condé Nast), IAC 등 여러 출판사와 5천만 달러 이상의 다년 계약을 체결하여 출판사의 뉴스 아카이브로 모델을 훈련시켰다. 또한, AFM 모델은 Swift, Python, C, Objective-C, C++, JavaScript, Java, Go 등의 오픈 소스 코드로도 훈련되었다.
오픈 소스 코드로 모델을 훈련시키는 것은 개발자들 사이에서 논란의 여지가 있다. 일부 오픈 소스 코드베이스는 라이선스가 없거나 AI 훈련을 허용하지 않는 경우가 있기 때문이다. 하지만 애플은 MIT, ISC 또는 아파치 라이선스와 같은 최소한의 사용 제한이 있는 저장소만 포함하도록 '라이선스 필터링'을 했다고 주장한다.
애플은 논문에서 AFM 모델의 수학적 능력을 향상시키기 위해 웹페이지, 수학 포럼, 블로그, 튜토리얼 및 세미나에서 수집한 수학 문제와 답변을 훈련 세트에 포함시켰다고 밝혔다. 또한, '훈련 모델 사용을 허용하는 라이선스'가 있는 '고품질의 공개 데이터 세트'를 필터링하여 민감한 정보를 제거했다.
전체적으로 AFM 모델의 훈련 데이터 세트는 약 6.3조 토큰(token)으로 구성된다. (토큰은 생성 AI 모델이 더 쉽게 처리할 수 있는 작은 데이터 조각이다.) 참고로, 이는 메타(Meta)가 자사의 주요 텍스트 생성 모델인 라마 3.1(Llama 3.1)을 훈련시키기 위해 사용한 15조 토큰의 절반 이하에 해당한다.
애플은 추가 데이터를 소싱하여 인간 피드백과 합성 데이터를 포함시켜 AFM 모델을 미세 조정하고 독성 발언을 방지하기 위해 노력했다.
"우리 모델은 애플의 핵심 가치에 기반하여 애플 제품 전반에서 사용자들이 일상 활동을 수행하는 데 도움을 주기 위해 만들어졌으며, 모든 단계에서 책임감 있는 AI 원칙에 뿌리를 두고 있다"고 회사는 밝혔다.
논문에는 큰 충격적인 내용은 없으며, 이는 경쟁 압력과 법적 문제를 피하기 위한 신중한 설계 덕분이다.
일부 회사들은 공공 웹 데이터를 크롤링하여 모델을 훈련시키는 관행이 공정 사용(fair use) 원칙에 의해 보호된다고 주장한다. 그러나 이는 매우 논란이 되는 문제이며, 점점 더 많은 소송의 대상이 되고 있다.
애플은 논문에서 웹마스터가 데이터 크롤링을 차단할 수 있도록 허용한다고 언급했다. 그러나 이는 개별 크리에이터들에게는 어려움을 남긴다. 예를 들어, 자신의 포트폴리오가 애플의 데이터 크롤링을 차단하지 않는 사이트에 호스팅된 예술가는 어떻게 해야 할까?
법정 싸움은 생성 AI 모델과 그 훈련 방식의 운명을 결정할 것이다. 현재로서는 애플이 윤리적 플레이어로 자리매김하면서도 불필요한 법적 검토를 피하려고 노력하고 있다.
뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기