ÚLTIMAS NOTICIAS

vivir Irán cancela las conversaciones de paz con Trump por los ataques israelíes contra el Líbano, lo que provoca una caída en los mercados

Hace 19 horas Actualizaciones en vivo
La CFTC prohíbe a Mashinsky operar de por vida, cerrando así el primer caso de prestamista de criptomonedas del regulador

Hace 57 minutos Reglamento
MGX estudia la adquisición multimillonaria del operador de centros de datos DayOne en su afán por dominar la infraestructura de IA

Hace 2 horas Tecnología
Japón planea una inversión de 65 mil millones de dólares en IA física para 2040 para compensar la disminución de su fuerza laboral

Hace 5 horas Economía

SELECCIONADO PARA TI

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Gigantes tecnológicos usan subtítulos de YouTube para entrenar IA sin permiso

Por

Brenda Kanana

Lectura de 2 minutos. 16 de julio de 2024.

Gigantes tecnológicos usan subtítulos de YouTube para entrenar IA sin permiso

Apple y otros desarrolladores de IA, como Anthropic y Nvidia, han sido descubiertos usando subtítulos de YouTube sin permiso para entrenar sus sistemas de IA.
El conjunto de datos “Subtítulos de YouTube” fue desarrollado por EleutherAI y publicado en 2020.
OpenAI utilizó un millón de horas de videos de YouTube para entrenar su modelo GPT-4.

Se ha descubierto que Apple, Nvidia y Anthropic utilizan subtítulos de YouTube para entrenar modelos de IA, lo cual contraviene las políticas de YouTube. Un informe de Proof News y Wired reveló que dichas empresas habían utilizado un conjunto de datos con las transcripciones de miles de vídeos de YouTube sin obtener la licencia correspondiente.

Lea también: El organismo regulador del Reino Unido inicia una investigación sobre la adquisición de talento en IA por parte de Microsoft.

El estudio reveló que Apple, Nvidia y Anthropic utilizaron el conjunto de datos de subtítulos de YouTube. Este conjunto de datos consta de transcripciones de 173.536 vídeos de YouTube de 48.000 canales. Los vídeos incluyen canales educativos como Khan Academy y el MIT, canales de noticias como The Wall Street Journal y creadores destacados como MrBeast y Marques Brownlee.

YouTubers populares reaccionan a la explotación de datos

Marques Brownlee, un popular youtuber, comentó sobre el tema en X. Dijo: «Apple ha recopilado datos para IA de otras empresas. Una de ellas recopiló muchos datos y transcripciones de videos de YouTube, incluidos los míos». Si bien es posible que Apple no haya extraído los datos directamente, Brownlee señaló que este problema persistirá.

El conjunto de datos “Subtítulos de YouTube” fue desarrollado por EleutherAI y publicado en 2020. Contiene 5,7 GB de datos, que incluyen subtítulos de los videos de YouTube que se han eliminado de la plataforma.

Según los términos y condiciones de YouTube, está prohibido acceder a los vídeos por medios automáticos. La presencia de subtítulos en los vídeos eliminados agrava el problema, planteando dudas sobre la privacidad y la infracción de derechos de autor.

Salesforce, organización también implicada en la investigación, también ha admitido haber utilizado dicho conjunto de datos.

El conjunto de datos Pile al que se hace referencia en el artículo de investigación se entrenó en 2021 con fines académicos y de investigación. El conjunto de datos estaba disponible públicamente y se publicó bajo una licencia permisiva
Portavoz de Salesforce

Sin embargo, el uso de contenido de YouTube sin permiso sigue siendo controvertido. En abril, el director ejecutivo de YouTube, Neal Mohan, declaró que usar videos, transcripciones o clips de YouTube para entrenar a la IA constituye una clara violación de las políticas. Sin embargo, según el New York Times, OpenAI utilizó un millón de horas de videos de YouTube para entrenar su modelo GPT-4.

Estallan batallas legales por el uso de contenido de Internet por parte de empresas de IA

El problema de las corporaciones de IA que utilizan contenido de internet sin autorización ha aumentado tras el lanzamiento de ChatGPT. Además, los creadores de contenido están demandando a Stability AI y Midjourney por presuntamente copiar obras protegidas por derechos de autor sin permiso. Google, propietario de YouTube, se enfrentó a demandas colectivas por reclamaciones similares, alegando que este tipo de acciones legales amenazan la base de la IA generativa.

En una entrevista con The Wall Street Journal, la directora de tecnología de OpenAI, Mira Murati, no especificó si la compañía utilizó videos de plataformas de redes sociales para entrenar este nuevo modelo. El director ejecutivo de Microsoft AI, Mustafa Suleyman, afirmó socialtrac".

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Apple Nvidia OpenAI YouTube

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Brenda Kanana

Brenda cuenta con más de cuatro años de experiencia especializada en criptomonedas, inteligencia artificial y tecnologías emergentes. Ha trabajado en Zycrypto, Blockchain Reporter, The Coin Republic y ahora forma parte de Cryptopolitan . Su licenciatura en Sociología por la Universidad Técnica de Mombasa le permite estar al tanto de las necesidades de sus lectores.

ÍNDICE

2. Estallan batallas legales por el uso de contenido de Internet por parte de empresas de IA

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

CURSO INTENSIVO DE CRIPTOMONEDAS PROFUNDAS

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)