OpenAI CTO, WSJ 인터뷰에서 Sora 훈련 데이터에 대한 모호한 답변 제공

김주성 기자

2024.03.17 (일) 15:00

월스트리트저널(The Wall Street Journal)과의 인터뷰에서 무라티는 회사의 Sora 모델을 훈련하는 데 사용된 데이터 소스에 관해 물어볼 때 모호한 답변을 제시했다.

“우리는 공개적으로 제공된 데이터와 라이선스를 받은 데이터를 사용했습니다.”라고 무라티는 회사가 800억 달러로 평가되는 Sora 모델을 훈련하는 방법에 대해 답변했다.

그런 다음 월스트리트저널의 조안나 스턴(Joanna Stern)은 Sora가 유튜브, 인스타그램 또는 페이스북과 같은 소셜 미디어 플랫폼에서 데이터로 훈련되었는지에 대해 물었습니다. “제가 그것에 대해 정확하게 알지 못합니다.”라고 무라티가 답했다.

다른 주제로 넘어가기 전에 스턴은 오픈에이아이의 셔터스톡(Shutterstock)과의 파트너십을 언급하면서 Sora를 훈련시키기 위해 그 데이터를 사용할 수 있을지 물었다. 무리티는 다음과 같이 답변했다. “저는 사용된 데이터에 대해 자세히 언급하지 않을 것입니다. 그러나 그것은 공개적으로 사용 가능한 또는 라이선스를 받은 데이터였습니다.” 그녀는 이후에 월스트리트저널에게 셔터스톡 데이터가 Sora에 사용되었다고 전달했다.

인공지능 모델은 패턴을 인식하거나 예측하거나 언어를 이해하는 데 도움이 되는 대규모 데이터 세트인 훈련 데이터 세트를 사용하여 훈련된다.

코인텔레그래프에 따르면 무라티는 2018년부터 오픈에이아이에 있으며, 회사의 가장 인기 있는 프로젝트 중 일부를 이끌었다. 이 프로젝트에는 이미지 생성 모델 DALL-E 3, 음성 인식 도구 Whisper, 그리고 회사의 최신 챗봇 GPT-4의 최신 버전이 포함된다. 무라티는 2023년 11월에 임시 CEO로 잠시 임명되었다. 이는 오픈에이아이의 이사회가 사무엘 알트맨(Sam Altman)을 해임한 후의 일이다.

오픈에이아이는 그의 AI 모델의 훈련 데이터와 관련된 여러 법적 조치의 대상이 되었다. 2023년 7월에는 저자인 사라 실버맨(Sarah Silverman), 리처드 카드리(Richard Kadrey), 그리고 크리스토퍼 골든(Christopher Golden)이 회사에 소송을 제기하여 ChatGPT가 저작권으로 보호된 콘텐츠를 기반으로 저자의 작품에 대한 요약을 생성한다고 주장했다.

12월에는 뉴욕 타임스(The New York Times)가 마이크로소프트(Microsoft)와 오픈에이아이에 대해 비슷한 저작권 침해 소송을 제기하여 회사가 신문의 콘텐츠를 사용하여 AI 챗봇을 훈련시켰다는 주장을 제기했다. 캘리포니아에서는 다른 집단 소송이 제기되었는데, 이는 오픈에이아이가 사용자 동의 없이 인터넷에서 개인 사용자 정보를 스크래핑하여 ChatGPT를 훈련시켰다는 주장이다. 사업이 확장됨에 따라 계속되는 논란이 생길 것으로 보인다.

뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기

광고문의 기사제보 보도자료

많이 본 기사