Documentos filtrados obtenidos por 404 Media sugieren que NVIDIA participó en la extracción de datos sin licencia, utilizando secuencias de películas y juegos de Internet para entrenar sus productos de inteligencia artificial.
Los documentos filtrados revelan que intentaban descargar películas completas de varios canales, incluyendo Netflix, y que su principal interés eran los vídeos de YouTube. Según los correos electrónicos obtenidos por 404 Media, los responsables del proyecto pretendían emplear entre 20 y 30 máquinas virtuales en Amazon Web Services para obtener 80 años de vídeos al día.
NVIDIA defiende sus acciones e invoca disposiciones de uso justo
El raspado de datos consiste entraccontenido de video, texto y audio de internet sin el permiso de sus propietarios para entrenar modelos de IA. Esta práctica podría considerarse como el uso de contenido de plataformas de redes sociales con derechos de autor.
NVIDIA ha declarado que no infringió ninguna ley de derechos de autor durante el proceso de extracción de datos. La compañía también declaró que sus actividades se rigen por la doctrina del uso legítimo, ya que utiliza material protegido por derechos de autor para entrenar a la IA.
Documentos obtenidos de comunicaciones internas por 404 Media indican que algunos empleados de NVIDIA expresaron su preocupación por estas actividades de extracción de datos. Sin embargo, los gerentes de proyecto supuestamente minimizaron las preocupaciones, afirmando que las cuestiones legales, como las infracciones de las Condiciones de Servicio de YouTube, se abordarían más adelante.
Un empleado señaló que los ingenieros de IA de NVIDIA intentaron obtener la mayor cantidad posible de clips de juego para enriquecer el corpus de entrenamiento. Esto implicó transmitir la partida al servicio en la nube GeForceNow de NVIDIA para grabar videos en alta defi. Jim Fan, analista sénior de investigación, también destacó en mensajes internos la importancia de este material como insumo para el entrenamiento del modelo de IA.
La empresa toma medidas para gestionar la percepción pública de las prácticas de datos
Los documentos también detallan los intentos de NVIDIA de controlar las repercusiones de dichas prácticas. Según correos electrónicos filtrados, el vicepresidente de investigación, Ming-Yu Liu, recomendó a la compañía evitar la publicación de documentos relacionados con las técnicas de extracción de datos para evitar la reacción negativa del público. Además, creó su propio conjunto de herramientas de extracción de datos de YouTube y cuentas API para facilitar el proceso de recopilación de datos.
La situación legal respecto a las normas que rigen el uso de la IA para la extracción de datos aún no está muy clara. Según Robert Mahari, del MIT, puede ser bastante complicado determinar si se ha producido una extracción de datos. Las organizaciones podrían beneficiarse al no revelar las fuentes de sus datos de entrenamiento, ya que resulta difícil demostrar el abuso sin pruebas tangibles.
Otra plataforma, Suno, una plataforma de generación musical con IA, fue recientemente objeto de atención por admitir el uso de la extracción de datos para entrenar modelos de inteligencia artificial. Como informó previamente Cryptopolitan, el director ejecutivo de Reddit, Steve Huffman, declaró que la compañía seguirá prohibiendo a Microsoft y a otras empresas de IA el uso de la extracción de datos hasta que se realice el pago y la plataforma controle el uso de los datos. Añadió que Reddit no permitiría la extracción de datos para el entrenamiento de modelos de IA sin la licencia correspondiente.

