Google y Harvard estrenan un conjunto de datos con un millón de libros de dominio público para entrenamiento de IA

Por

Enacy Mapakame

Lectura de 2 minutos. 12 de diciembre de 2024.

La iniciativa mejorará el acceso a más información para que las empresas de IA entrenen sus modelos.
OpenAI y Microsoft financiaron el proyecto de Havard.
Los casi un millón de libros abarcan distintos géneros y fueron escaneados como parte del programa Google Books.

La Universidad de Harvard, en colaboración con Google, ha publicado un conjunto de datos de un millón de libros de dominio público para entrenar a la próxima generación de IA.

Los libros abarcan géneros, idiomas y autores como Dickens, Dante y Shakespeare, que ya no están protegidos por derechos de autor debido a su antigüedad. La nueva iniciativa de conjunto de datos surge porque los datos de entrenamiento de IA son naturalmente costosos y más adecuados para empresas tecnológicas con amplios recursos.

Harvard recibió respaldo financiero de gigantes tecnológicos

Según un artículo de TechCrunch, la iniciativa está liderada por la Iniciativa de Datos Institucionales (IDI) de Harvard. Esta iniciativa incluye libros procedentes del proyecto de digitalización de libros de Google, Google Books.

Otros libros contenidos en el conjunto de datos incluyen libros de texto de matemáticas checos y diccionarios de bolsillo galeses.

La universidad se burló del IDI en marzo, declarando claramente sus planes de crear un "conducto confiable para datos legales de IA". Desde entonces, no se supo mucho de él hasta su lanzamiento oficial el jueves, cuando los gigantes tecnológicos Microsoft y OpenAI financiaron el proyecto.

El conjunto de datos no es exclusivo de Silicon Valley, sino que IDI lo ha abierto a todos, desde laboratorios de investigación hasta empresas emergentes de inteligencia artificial que quieran entrenar sus grandes modelos lingüísticos.

Al abrir el conjunto de datos a cualquier persona, el director ejecutivo de IDI, Greg Leppert, dijo que el conjunto de datos tiene como objetivo nivelar el campo de juego, en un momento en que el costo de entrenar IA sigue siendo alto y prohibitivo para las empresas más pequeñas, lo que lo deja fuera del alcance de aquellas con grandes presupuestos.

Leppert añadió que el conjunto de datos se "revisa rigurosamente", lo que, según Fudzilla, presumiblemente significa que alguien comprobó que Bard realmente se hubiera ido y no estuviera en el camino.

El conjunto de datos de Harvard necesitará más recursos

Según Leppert, quien comparó el potencial del conjunto de datos con Linux, el sistema operativo de código abierto, el éxito del conjunto de datos de Harvard dependerá de diversas variables. Leppert afirmó que su éxito requerirá más recursos, experiencia y una pizca de magia por parte de las mismas corporaciones adineradas a las que la iniciativa pretende desafiar.

El millón de libros que contiene el conjunto de datos se escanearon como parte del programa Google Books. Fudzilla describe la iniciativa como una cápsula del tiempo digital de cuando las ambiciones de Google de escanear todos los libros parecían extravagantes, no distópicas.

Sin embargo, Leppert se muestra optimista sobre los usos potenciales del proyecto y sugiere además que podría ser un tesoro que ayude a entrenar modelos de IA para todos, desde nuevas empresas de garaje hasta conglomerados corporativos.

Aunque algunos han elogiado la iniciativa como un salto revolucionario en la democratización de la IA, Fudzilla opina que algunos podrían ver esto como un medio sutil de garantizar que cualquier ambicioso advenedizo con unos pocos terabytes de espacio en el servidor ahora pueda competir en una carrera para desarrollar el próximo ChatGPT.

Sin embargo, necesitarán más recursos para competir y hacerse un dent en el mercado. ChatGPT se lanzó en noviembre de 2022 con un éxito inmediato, lo que impulsó la carrera por los modelos de IA generativa en todo el mundo. Sin embargo, el desarrollo de estos modelos ha generado una necesidad de datos para perfeccionarlos, y este deseo de obtener más datos ha generado problemas sobre la cantidad de información que pueden obtener sin robarla.

Hasta la fecha, editores como el Wall Street Journal y el New York Times han demandado a OpenAI y Perplexity por utilizar sus datos sin permiso.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Google

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Enacy Mapakame

Enacy Mapakame es periodista con más de 10 años de experiencia en noticias empresariales y financieras. Cubre mercados de capitales y tecnologías emergentes: el metaverso, la IA y las criptomonedas. Enacy es licenciada con honores en Estudios de Medios y Sociedad.

ÍNDICE

1. Harvard recibió respaldo financiero de gigantes tecnológicos

2. El conjunto de datos de Harvard necesitará más recursos

Comparte este artículo