Las empresas de IA dependen de editores premium para obtener datos de entrenamiento, según un nuevo estudio

- OpenAI y Google, importantes empresas de IA, están utilizando artículos de los principales canales de publicación para entrenar modelos lingüísticos.
- Según un estudio realizado por Ziff Davis, las fuentes se filtran en función de las clasificaciones de búsqueda.
- Los editores están preocupados porque las empresas de inteligencia artificial están utilizando su contenido sin permiso.
Las principales empresas de tecnología, incluidas OpenAI, Google, Meta y Anthropic, dependen de material protegido por derechos de autor de alta calidad de editoriales destacadas para entrenar sus modelos de lenguaje grandes (LLM).
Según un estudio realizado por Ziff Davis, la empresa matriz de CNET, IGN y Mashable, esto demuestra el papel fundamental que desempeña el contenido de alta calidad en el entrenamiento de estos modelos de IA. El estudio revela que las empresas de IA prefieren las fuentes autorizadas para los conjuntos de datos de entrenamiento con el fin de mejorar el rendimiento del modelo, pero a menudo se subestima la contribución de estas fuentes.
En la investigación, el abogado de IA de Ziff Davis, George Wukoson, y el director de tecnología, Joey Fortuna, afirmaron que las empresas de IA seleccionan los datos de entrenamiento basándose en la clasificación de sitios web de prestigio con un alto posicionamiento en buscadores. Se eligieron sitios web populares y de alta calidad para mejorar los modelos, ya que gozan de buena reputación. Esta estrategia, según el estudio, permite a los desarrolladores de IA perfeccionar el modelo de lenguaje.
Ziff Davis ha señalado que proveedores de contenido de primer nivel como Axel Springer, Future PLC, Hearst, News Corp y The New York Times, entre otros, han contribuido al desarrollo de conjuntos de datos de entrenamiento. En particular, se hadentque el 12,04 % de OpenWebText2, utilizado para la creación de GPT-3 de OpenAI, provino de estos editores de confianza.
Mark Zuckerberg también se pronunció sobre el debate en torno al uso de contenido en el entrenamiento de la IA. En una entrevista reciente con The Verge, Zuckerberg reconoció que la extracción de datos para la IA es compleja, pero también señaló que el contenido de creadores o editores individuales podría no ser tan relevante. Afirmó: «Creo que los creadores o editores individuales tienden a sobreestimar el valor de su contenido específico en el contexto general».
Los editores presentan demandas contra empresas de inteligencia artificial
El secretismo en torno a las fuentes de datos de entrenamiento ha generado preocupación tanto entre editores como entre consumidores. The New York Times y The Wall Street Journal presentaron recientemente demandas contra empresas de inteligencia artificial, alegando que han violado las leyes de derechos de autor al usar su contenido.
Si bien OpenAI ha avanzado en sus esfuerzos por obtener licencias de contenido de organizaciones de medios como el Financial Times y DotDash Meredith, varias empresas de IA aún operan sin las licencias adecuadas. El informe también señala que «los principales desarrolladores de LLM ya no divulgan sus datos de entrenamiento como lo hacían antes».
Mientras el valor de las empresas de IA aumenta, la brecha entre los gigantes tecnológicos y las empresas de medios convencionales sigue siendo enorme. Gigantes tecnológicos como Google y Meta, con un valor estimado de 2,2 y 1,5 billones de dólares, respectivamente, se mantienen a la vanguardia de la IA generativa, mientras que startups como OpenAI y Anthropic están valoradas en 157 000 millones de dólares y 40 000 millones de dólares, respectivamente.
Por otro lado, las editoriales aún lidian con despidos y reestructuraciones, lo que evidencia la presión financiera que supone adaptarse a un entorno cada vez más defipor la IA. Como resultado de la competencia con el contenido generado por el usuario y basado en IA, numerosas editoriales se enfrentan a retos en cuanto a la reducción de costes y personal.
Existe un punto intermedio entre dejar el dinero en el banco y arriesgarse con las criptomonedas. Empieza con este vídeo gratuito sobre finanzas descentralizadas.
Descargo de responsabilidad. La información proporcionada no constituye asesoramiento financiero. Cryptopolitande no se responsabiliza de las inversiones realizadas con base en la información de esta página. Recomendamostrondentdentdentdentdentdentdentdent inversión.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















