ÚLTIMAS NOTICIAS
SELECCIONADO PARA TI
SEMANALMENTE
MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Gigantes tecnológicos usan subtítulos de YouTube para entrenar IA sin permiso

PorBrenda KananaBrenda Kanana
Lectura de 2 minutos.
Gigantes tecnológicos usan subtítulos de YouTube para entrenar IA sin permiso
  • Apple y otros desarrolladores de IA, como Anthropic y Nvidia, han sido descubiertos usando subtítulos de YouTube sin permiso para entrenar sus sistemas de IA.
  • El conjunto de datos “Subtítulos de YouTube” fue desarrollado por EleutherAI y publicado en 2020.
  • OpenAI utilizó un millón de horas de videos de YouTube para entrenar su modelo GPT-4. 

Se ha descubierto que Apple, Nvidia y Anthropic utilizan subtítulos de YouTube para entrenar modelos de IA, lo cual contraviene las políticas de YouTube. Un informe de Proof News y Wired reveló que dichas empresas habían utilizado un conjunto de datos con las transcripciones de miles de vídeos de YouTube sin obtener la licencia correspondiente. 

Lea también: El organismo regulador del Reino Unido inicia una investigación sobre la adquisición de talento en IA por parte de Microsoft.

El estudio reveló que Apple, Nvidia y Anthropic utilizaron el conjunto de datos de subtítulos de YouTube. Este conjunto de datos consta de transcripciones de 173.536 vídeos de YouTube de 48.000 canales. Los vídeos incluyen canales educativos como Khan Academy y el MIT, canales de noticias como The Wall Street Journal y creadores destacados como MrBeast y Marques Brownlee. 

YouTubers populares reaccionan a la explotación de datos

Marques Brownlee, un popular youtuber, comentó sobre el tema en X. Dijo: «Apple ha recopilado datos para IA de otras empresas. Una de ellas recopiló muchos datos y transcripciones de videos de YouTube, incluidos los míos». Si bien es posible que Apple no haya extraído los datos directamente, Brownlee señaló que este problema persistirá.

El conjunto de datos “Subtítulos de YouTube” fue desarrollado por EleutherAI y publicado en 2020. Contiene 5,7 GB de datos, que incluyen subtítulos de los videos de YouTube que se han eliminado de la plataforma. 

Según los términos y condiciones de YouTube, está prohibido acceder a los vídeos por medios automáticos. La presencia de subtítulos en los vídeos eliminados agrava el problema, planteando dudas sobre la privacidad y la infracción de derechos de autor.

Salesforce, organización también implicada en la investigación, también ha admitido haber utilizado dicho conjunto de datos. 

El conjunto de datos Pile al que se hace referencia en el artículo de investigación se entrenó en 2021 con fines académicos y de investigación. El conjunto de datos estaba disponible públicamente y se publicó bajo una licencia permisiva

Portavoz de Salesforce 

Sin embargo, el uso de contenido de YouTube sin permiso sigue siendo controvertido. En abril, el director ejecutivo de YouTube, Neal Mohan, declaró que usar videos, transcripciones o clips de YouTube para entrenar a la IA constituye una clara violación de las políticas. Sin embargo, según el New York Times, OpenAI utilizó un millón de horas de videos de YouTube para entrenar su modelo GPT-4. 

Estallan batallas legales por el uso de contenido de Internet por parte de empresas de IA

El problema de las corporaciones de IA que utilizan contenido de internet sin autorización ha aumentado tras el lanzamiento de ChatGPT. Además, los creadores de contenido están demandando a Stability AI y Midjourney por presuntamente copiar obras protegidas por derechos de autor sin permiso. Google, propietario de YouTube, se enfrentó a demandas colectivas por reclamaciones similares, alegando que este tipo de acciones legales amenazan la base de la IA generativa. 

En una entrevista con The Wall Street Journal, la directora de tecnología de OpenAI, Mira Murati, no especificó si la compañía utilizó videos de plataformas de redes sociales para entrenar este nuevo modelo. El director ejecutivo de Microsoft AI, Mustafa Suleyman, afirmó socialtrac". 

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Brenda Kanana

Brenda Kanana

Brenda cuenta con más de cuatro años de experiencia especializada en criptomonedas, inteligencia artificial y tecnologías emergentes. Ha trabajado en Zycrypto, Blockchain Reporter, The Coin Republic y ahora forma parte de Cryptopolitan . Su licenciatura en Sociología por la Universidad Técnica de Mombasa le permite estar al tanto de las necesidades de sus lectores.

MÁS… NOTICIAS
CURSO INTENSIVO DE CRIPTOMONEDAS PROFUNDAS