ÚLTIMAS NOTICIAS
SELECCIONADO PARA TI
SEMANALMENTE
MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Gigantes tecnológicos usan subtítulos de YouTube para entrenar IA sin permiso

PorBrenda KananaBrenda Kanana
Lectura de 2 minutos.
Gigantes tecnológicos usan subtítulos de YouTube para entrenar IA sin permiso
  • Apple y otros desarrolladores de IA, como Anthropic y Nvidia, han sido descubiertos usando subtítulos de YouTube sin permiso para entrenar sus sistemas de IA.
  • El conjunto de datos “Subtítulos de YouTube” fue desarrollado por EleutherAI y publicado en 2020.
  • OpenAI utilizó un millón de horas de videos de YouTube para entrenar su modelo GPT-4. 

Se ha descubierto que Apple, Nvidia y Anthropic utilizan subtítulos de YouTube para entrenar modelos de IA, lo cual contraviene las políticas de YouTube. Un informe de Proof News y Wired reveló que dichas empresas habían utilizado un conjunto de datos con las transcripciones de miles de vídeos de YouTube sin obtener la licencia correspondiente. 

Lea también: El organismo regulador del Reino Unido inicia una investigación sobre la adquisición de talento en IA por parte de Microsoft.

El estudio reveló que Apple, Nvidia y Anthropic utilizaron el conjunto de datos de subtítulos de YouTube. Este conjunto de datos consta de transcripciones de 173.536 vídeos de YouTube de 48.000 canales. Los vídeos incluyen canales educativos como Khan Academy y el MIT, canales de noticias como The Wall Street Journal y creadores destacados como MrBeast y Marques Brownlee. 

YouTubers populares reaccionan a la explotación de datos

Marques Brownlee, un popular youtuber, comentó sobre el tema en X. Dijo: «Apple ha recopilado datos para IA de otras empresas. Una de ellas recopiló muchos datos y transcripciones de videos de YouTube, incluidos los míos». Si bien es posible que Apple no haya extraído los datos directamente, Brownlee señaló que este problema persistirá.

El conjunto de datos “Subtítulos de YouTube” fue desarrollado por EleutherAI y publicado en 2020. Contiene 5,7 GB de datos, que incluyen subtítulos de los videos de YouTube que se han eliminado de la plataforma. 

Según los términos y condiciones de YouTube, está prohibido acceder a los vídeos por medios automáticos. La presencia de subtítulos en los vídeos eliminados agrava el problema, planteando dudas sobre la privacidad y la infracción de derechos de autor.

Salesforce, organización también implicada en la investigación, también ha admitido haber utilizado dicho conjunto de datos. 

El conjunto de datos Pile al que se hace referencia en el artículo de investigación se entrenó en 2021 con fines académicos y de investigación. El conjunto de datos estaba disponible públicamente y se publicó bajo una licencia permisiva

Portavoz de Salesforce 

Sin embargo, el uso de contenido de YouTube sin permiso sigue siendo controvertido. En abril, el director ejecutivo de YouTube, Neal Mohan, declaró que usar videos, transcripciones o clips de YouTube para entrenar a la IA constituye una clara violación de las políticas. Sin embargo, según el New York Times, OpenAI utilizó un millón de horas de videos de YouTube para entrenar su modelo GPT-4. 

Estallan batallas legales por el uso de contenido de Internet por parte de empresas de IA

El problema de las corporaciones de IA que utilizan contenido de internet sin autorización ha aumentado tras el lanzamiento de ChatGPT. Además, los creadores de contenido están demandando a Stability AI y Midjourney por presuntamente copiar obras protegidas por derechos de autor sin permiso. Google, propietario de YouTube, se enfrentó a demandas colectivas por reclamaciones similares, alegando que este tipo de acciones legales amenazan la base de la IA generativa. 

En una entrevista con The Wall Street Journal, la directora de tecnología de OpenAI, Mira Murati, no especificó si la compañía utilizó videos de plataformas de redes sociales para entrenar este nuevo modelo. El director ejecutivo de Microsoft AI, Mustafa Suleyman, afirmó socialtrac". 

Existe un punto intermedio entre dejar el dinero en el banco y arriesgarse con las criptomonedas. Empieza con este vídeo gratuito sobre finanzas descentralizadas.

Comparte este artículo

Descargo de responsabilidad. La información proporcionada no constituye asesoramiento financiero. Cryptopolitande no se responsabiliza de las inversiones realizadas con base en la información de esta página. Recomendamostrondentdentdentdentdentdentdentdent inversión.

MÁS… NOTICIAS
INTENSIVO CRIPTOMONEDAS
CURSO