que los modelos de lenguaje extenso (LLM) entrenados con iteraciones previas de material generado por IA producen resultados carentes de sustancia y matices. Estos hallazgos representan un nuevo desafío para los desarrolladores de IA, quienes dependen de conjuntos limitados de datos generados por humanos para la creación de contenido.
Investigadores de inteligencia artificial de la Universidad de Cambridge y la Universidad de Oxford (Reino Unido) intentaron redactar indicaciones basándose en un conjunto de datos compuesto únicamente por contenido generado por IA. El resultado no fue ideal, ya que generó respuestas incomprensibles.
La IA todavía necesita humanos para tener sentido
Uno de los autores del artículo, Zhakar Shumaylov, de la Universidad de Cambridge, afirmó que es necesario un control de calidad en los datos que alimentan los LLM, la tecnología detrás de los chatbots de IA generativa como ChatGPT y Gemini de Google. Shumaylov afirmó:
El mensaje es que debemos tener mucho cuidado con lo que termina en nuestros datos de entrenamiento. [De lo contrario,] las cosas siempre, y con toda probabilidad, saldrán mal.
El fenómeno se conoce como "colapso del modelo", detalló Shumaylov. Se ha demostrado que afecta a todo tipo de modelos de inteligencia artificial, incluidos aquellos que se especializan en la generación de imágenes mediante indicaciones de texto.
Según el estudio , la repetición de indicaciones de texto utilizando datos generados por IA en un modelo resultó en un galimatías. Por ejemplo, los investigadores descubrieron que un sistema probado con texto sobre las torres de las iglesias medievales del Reino Unido produjo una lista repetitiva de liebres después de solo nueve generaciones.
Al comentar los resultados, el científico informático de la Universidad de California, Hany Farid, comparó el colapso de datos con los desafíos endémicos de la endogamia animal.
"Si una especie se reproduce con sus propios descendientes y no diversifica su acervo genético, puede conducir al colapso de la especie", dijo Farid.
Cuando los investigadores incorporaron datos generados por humanos en los datos de IA, el colapso se produjo más lentamente que cuando se ejecutaba con contenido generado puramente por IA.

Investigadores: La IA podría agravar los prejuicios contra los grupos minoritarios
Los modelos lingüísticos funcionan creando asociaciones entre tokens (palabras o partes de palabras) en grandes cantidades de texto, a menudo extraídas de internet. Generan texto extrayendo la siguiente palabra estadísticamente más probable, basándose en estos patrones aprendidos.
Lea también: El oso de peluche Poe, con tecnología ChatGPT, lee cuentos a los niños antes de dormir.
El estudio, publicado en la revista Nature el 24 de julio, mostró que es probable que la información mencionada con poca frecuencia en los conjuntos de datos no se repita. A los investigadores les preocupa que esto pueda afectar negativamente a grupos minoritarios ya marginados.
Para evitar el colapso del modelo en casos de uso reales, el estudio sugirió añadir marcas de agua tanto al contenido generado por IA como al generado por humanos. Sin embargo, esto también podría sermatic debido a la falta de coordinación entre empresas rivales de IA, señaló.
Los hallazgos del estudio llegan en un momento en que hay un creciente debate sobre si la IA resultará en la exclusión total de los humanos en la creación de contenidos, incluida la escritura de novelas y artículos periodísticos.
Los resultados del estudio, titulado "Los modelos de IA colapsan cuando se entrenan con datos generados de forma recursiva", ponen fin a ese debate: los humanos aún no han sido eliminados de la ecuación.

