Los modelos de razonamiento más nuevos de OpenAI, O3 y O4 -Mini, producen respuestas de preparación con más frecuencia que los modelos anteriores de la compañía, como lo demuestran las pruebas internas y externas.
El aumento de las llamadas alucinaciones rompe un patrón de larga data en el que cada nuevo lanzamiento tendió a inventar cosas menos que el modelo anterior.
Los propios números de OpenAI En Personqa, un punto de referencia de la compañía que verifica qué tan bien un modelo recuerda los hechos sobre las personas, O3 inventó material en el 33 por ciento de las respuestas, aproximadamente el doble de las tasas registradas por O1 y O3 -Mini, que obtuvieron un 16 por ciento y 14.8 por ciento. A O4 -Mini le fue aún peor, alucinando el 48 por ciento del tiempo.
Un informe técnico detalla los hallazgos. Los ingenieros escriben que los nuevos modelos superan a las versiones anteriores en codificación y matemáticas, pero porque "hacen más reclamos en general", también hacen "afirmaciones más precisas, así como reclamos más inexactos / alucinados". El documento agrega que "se necesita más investigación" para explicar la diapositiva de confiabilidad.
OpenAI clasifica los sistemas O -Series como modelos de razonamiento, una línea que la empresa y gran parte de la industria han adoptado durante el año pasado. Los modelos tradicionales y no condensadores como GPT - 4O con búsqueda web superan al último dúo sobre la veracidad: GPT - 4O con la búsqueda alcanza el 90 por ciento de precisión en SimpleQA, otro punto de referencia interno.
El modelo O3 de OpenAI está tomando pasos
Transluce, un laboratorio sin fines de lucro de IA, informó que el modelo O3 inventó los pasos. En una ejecución, el modelo dijo que había ejecutado el código en un 2021 MacBook Pro "Fuera de ChatGPT", y luego copió los números. El modelo simplemente no es capaz de hacerlo.
"Nuestra hipótesis es que el tipo de aprendizaje de refuerzo utilizado para los modelos O -Series puede amplificar los problemas que generalmente son mitigados (pero no están completamente borrados) por las tuberías estándar posteriores al entrenamiento", dijo Neil Chowdhury, un investigador de transluciones y ex empleado de Openai, en un correo electrónico.
La cofundadora de Transluce Sarah Schwettmann dijo que la tasa de error más alta podría hacer que O3 sea menos útil de lo que sugieren sus habilidades en bruto.
Kian Katanforoosh, profesor adjunto de Stanford, dijo a TechCrunch que su equipo ya está probando O3 para las tareas de codificación y lo ve como "un paso por encima de la competencia". Sin embargo, informó otro defecto: el modelo a menudo devuelve enlaces web que no funcionan cuando se hace clic.
Las alucinaciones pueden estimular la creatividad, pero hacen que los sistemas sean difíciles para las empresas que necesitan precisión. Es poco probable que un bufete de abogados que redactara lostrac, por ejemplo, toleran errores de hecho frecuentes.
La búsqueda en tiempo real podría reducir las alucinaciones en los modelos de IA
Una posible solución es la búsqueda en tiempo real. La versión GPT - 4O de Openai, que consulta la web, ya obtiene mejor en SimpleQA. El informe sugiere que la misma táctica podría reducir las alucinaciones en los modelos de razonamiento, al menos cuando los usuarios están dispuestos a enviar indicaciones a un motor de terceros.
"Abordar las alucinaciones en todos nuestros modelos es un área de investigación en curso, y estamos trabajando continuamente para mejorar su precisión y confiabilidad", dijo el portavoz de OpenAI, Niko Felix, en un correo electrónico.
Si la búsqueda en tiempo real por sí sola resolverá el problema sigue sin estar claro. El informe advierte que si ampliar los modelos de razonamiento mantiene el empeoramiento de las alucinaciones, la búsqueda de soluciones se volverá más urgente. Los investigadores han calificado durante mucho tiempo en las alucinaciones uno de los problemas más difíciles de la IA, y los últimos hallazgos subrayan qué tan lejos hay que llegar.
Para OpenAI, la credibilidad es importante ya que ChatGPT se usa en lugares de trabajo, aulas y estudios creativos. Los ingenieros dicen que seguirán sintonizar el aprendizaje de refuerzo, la selección de datos y el uso de la herramienta para reducir los números. Hasta entonces, los usuarios deben equilibrar las habilidades más nítidas con una mayor probabilidad de ser engañados.
Academia Cryptopolitan: ¿Quieres hacer crecer tu dinero en 2025? Aprenda cómo hacerlo con DeFi en nuestra próxima clase web. Guarda tu lugar