Se descubre que los nuevos modelos ChatGPT de OpenAI “alucinan” con más frecuencia

- Los nuevos modelos o3 y o4‑mini de OpenAI alucinan más que las versiones anteriores, rompiendo con las tendencias de mejora anteriores.
- Las pruebas muestran que o3 y o4‑mini inventan hechos hasta dos veces más a menudo, y o4‑mini alucina casi la mitad de las veces.
- La búsqueda en tiempo real puede ayudar a reducir errores, pero la causa raíz del aumento de las alucinaciones sigue siendo desconocida.
Los modelos de razonamiento más nuevos de OpenAI, o3 y o4-mini, producen respuestas inventadas con más frecuencia que los modelos anteriores de la empresa, como lo demuestran pruebas internas y externas.
El aumento de las llamadas alucinaciones rompe un patrón de larga data en el que cada nuevo lanzamiento tendía a inventar menos cosas que el modelo anterior.
OpenAIexponen el problema con crudeza. En PersonQA, una prueba comparativa de la empresa que evalúa la capacidad de un modelo para recordar información sobre personas, o3 inventó información en el 33 % de las respuestas, casi el doble de las tasas registradas por o1 y o3-mini, que obtuvieron un 16 % y un 14,8 %, respectivamente. O4-mini tuvo un desempeño aún peor, con un índice de alucinaciones del 48 %.
Un informe técnico detalla los hallazgos. Los ingenieros señalan que los nuevos modelos superan a las versiones anteriores en codificación y matemáticas, pero debido a que “hacen más afirmaciones en general”, también hacen “afirmaciones más precisas, así como afirmaciones más imprecisas o descabelladas”. El documento añade que “se necesita más investigación” para explicar la disminución en la fiabilidad.
OpenAI clasifica los sistemas de series o como modelos de razonamiento, una línea que la empresa y gran parte del sector han adoptado durante el último año. Los modelos tradicionales sin razonamiento, como GPT-4o con búsqueda web, superan al dúo más reciente en veracidad: GPT-4o con búsqueda alcanza una precisión del 90 % en SimpleQA, otra prueba de referencia interna.
El modelo o3 de OpenAI está avanzando
Transluce, un laboratorio de IA sin fines de lucro, informó que el modelo o3 inventaba pasos. En una ejecución, el modelo afirmó haber ejecutado código en una MacBook Pro de 2021 "fuera de ChatGPT" y luego haber copiado los números. El modelo simplemente no es capaz de hacer eso.
“Nuestra hipótesis es que el tipo de aprendizaje de refuerzo utilizado para los modelos o-series puede amplificar problemas que normalmente se mitigan (pero no se eliminan por completo) mediante procesos de post-entrenamiento estándar”, dijo Neil Chowdhury, investigador de Transluce y ex empleado de OpenAI, en un correo electrónico.
Sarah Schwettmann, cofundadora de Transluce, dijo que la mayor tasa de error podría hacer que o3 sea menos útil de lo que sugieren sus habilidades brutas.
Kian Katanforoosh, profesor adjunto de Stanford, declaró a TechCrunch que su equipo ya está probando o3 para tareas de codificación y lo considera "un paso por encima de la competencia". Sin embargo, informó de otro fallo: el modelo suele devolver enlaces web que no funcionan al hacer clic en ellos.
Las alucinaciones pueden estimular la creatividad, pero dificultan la venta de los sistemas a las empresas que necesitan precisión. Por ejemplo, es poco probable que un bufete de abogados que redactatractolere frecuentes errores factuales.
La búsqueda en tiempo real podría reducir las alucinaciones en los modelos de IA
Una posible solución es la búsqueda en tiempo real. La versión GPT‑4o de OpenAI, que consulta la web, ya obtiene mejores resultados en SimpleQA. El informe sugiere que esta misma táctica podría reducir las alucinaciones en los modelos de razonamiento, al menos cuando los usuarios están dispuestos a enviar indicaciones a un motor de terceros.
“Abordar las alucinaciones en todos nuestros modelos es un área de investigación continua y trabajamos continuamente para mejorar su precisión y confiabilidad”, dijo el portavoz de OpenAI, Niko Felix, en un correo electrónico.
Aún no está claro si la búsqueda en tiempo real por sí sola resolverá el problema. El informe advierte que si la ampliación de los modelos de razonamiento continúa empeorando las alucinaciones, la búsqueda de soluciones será más urgente. Los investigadores llevan mucho tiempo considerando las alucinaciones como uno de los problemas más complejos de la IA, y los últimos hallazgos subrayan el camino que queda por recorrer.
Para OpenAI, la credibilidad es fundamental, ya que ChatGPT se utiliza en lugares de trabajo, aulas y estudios creativos. Los ingenieros afirman que seguirán perfeccionando el aprendizaje por refuerzo, la selección de datos y el uso de herramientas para reducir las cifras. Hasta entonces, los usuarios deben encontrar el equilibrio entre unas habilidades más avanzadas y una mayor probabilidad de ser engañados.
Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!
Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Shummas Humayun
Shummas es un ex escritor de contenido técnico e investigador.
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)














