404 Media가 입수한 유출 문서에 따르면 NVIDIA는 허가 없이 데이터를 수집하여 인터넷에서 영화와 게임 영상을 수집해 자사의 인공지능 제품을 훈련시킨 것으로 드러났습니다.
유출 된 문서에 따르면, 이들은 넷플릭스를 포함한 다양한 채널에서 영화 전체를 다운로드하려 했으며, 주된 관심사는 유튜브 영상이었다고 합니다. 404 미디어가 입수한 이메일에 따르면, 프로젝트 관리자들은 아마존 웹 서비스(AWS)에서 20~30대의 가상 머신을 활용하여 하루에 80년 분량의 영상을 다운로드할 계획이었습니다.
NVIDIA는 자사의 행동을 옹호하고 공정 사용 조항을 적용합니다.
데이터 스크래핑은 콘텐츠 소유자의 허가 없이 인터넷에서 비디오, 텍스트, 오디오 콘텐츠를trac하여 AI 모델을 학습시키는 행위입니다. 이는 저작권이 있는 콘텐츠가 포함된 소셜 미디어 플랫폼의 콘텐츠를 사용하는 것으로 볼 수 있습니다.
엔비디아는 데이터 스크래핑 과정에서 어떠한 저작권법도 위반하지 않았다고 밝혔습니다. 또한, AI 학습에 저작권이 있는 자료를 활용하고 있으므로 자사의 활동이 공정 이용 원칙에 해당한다고 주장했습니다.
404 미디어가 내부 커뮤니케이션을 통해 입수한 문서에 따르면 일부 NVIDIA 직원들이 이러한 데이터 스크래핑 활동에 대해 우려를 표명했습니다. 그러나 프로젝트 관리자들은 이러한 우려를 경시하며, 유튜브 서비스 약관 위반 등 법적 문제는 추후 처리될 것이라고 말한 것으로 알려졌습니다.
한 직원은 NVIDIA의 AI 엔지니어들이 훈련 자료를 풍부하게 만들기 위해 최대한 많은 게임 클립을 확보하려고 노력했다고 지적했습니다. 이를 위해 NVIDIA의 GeForceNow 클라우드 서비스로 게임 플레이 영상을 스트리밍하여 defi로 녹화했습니다. 수석 리서치 애널리스트인 짐 팬 또한 내부 메시지에서 AI 모델 훈련에 필요한 입력 자료로서 이러한 영상의 중요성을 강조했습니다.
회사는 데이터 관행에 대한 대중의 인식을 관리하기 위한 조치를 취합니다.
이 문서에는 이러한 관행의 파급 효과에 대한 엔비디아의 피해 복구 노력도 자세히 나와 있습니다. 유출된 이메일에 따르면, 리서치 부사장 밍유 류는 대중의 반발을 막기 위해 데이터 스크래핑 기법과 관련된 논문을 공개하지 말 것을 권고했습니다. 또한 엔비디아는 데이터 수집 과정을 지원하기 위해 자체적인 유튜브 데이터 스크래핑 도구와 API 계정을 개발했습니다.
AI를 이용한 데이터 스크래핑을 규제하는 규칙에 대한 법적 입장은 아직 명확하지 않습니다. MIT의 로버트 마하리에 따르면, 데이터 스크래핑이 실제로 발생했는지 확인하는 것은 상당히 복잡할 수 있습니다. 조직은 학습 데이터의 출처를 밝히지 않는 것이 유리할 수 있는데, 확실한 증거가 없으면 데이터 남용을 입증하기 어렵기 때문입니다.
인공지능 음악 생성 플랫폼인 수노(Suno)가 최근 인공지능 모델 학습에 데이터 스크래핑을 사용했음을 인정하면서 논란이 되었습니다. Cryptopolitan의 보도에 따르면, 레딧(Reddit) CEO 스티브 허프먼은 마이크로소프트(Microsoft)를 비롯한 AI 기업들이 데이터 스크래핑에 대한 비용을 지불하고 플랫폼이 데이터 사용에 대한 통제권을 확보할 때까지 데이터 스크래핑을 계속 금지할 것이라고 밝혔습니다. 그는 레딧이 적절한 라이선스 없이는 AI 모델 학습에 데이터 스크래핑을 허용하지 않을 것이라고 강조했습니다.

