COMING SOON: A New Way to Earn Passive Income with DeFi in 2025 LEARN MORE

Los nuevos modelos de chatgpt de Openai se encuentran "alucinar" con más frecuencia

En esta publicación:

  • Los nuevos modelos O3 y O4 -Mini de Openai alucinan más que las versiones más antiguas, rompiendo las tendencias de mejora más allá de la mejora.
  • Las pruebas muestran que O3 y O4 -Mini constituyen hechos hasta el doble de a menudo, con alucinando O4 -Mini alucinando casi la mitad del tiempo.
  • La búsqueda en tiempo real puede ayudar a reducir los errores, pero la causa raíz de las alucinaciones crecientes sigue siendo desconocida.

Los modelos de razonamiento más nuevos de OpenAI, O3 y O4 -Mini, producen respuestas de preparación con más frecuencia que los modelos anteriores de la compañía, como lo demuestran las pruebas internas y externas. 

El aumento de las llamadas alucinaciones rompe un patrón de larga data en el que cada nuevo lanzamiento tendió a inventar cosas menos que el modelo anterior.

Los propios números de OpenAI En Personqa, un punto de referencia de la compañía que verifica qué tan bien un modelo recuerda los hechos sobre las personas, O3 inventó material en el 33 por ciento de las respuestas, aproximadamente el doble de las tasas registradas por O1 y O3 -Mini, que obtuvieron un 16 por ciento y 14.8 por ciento. A O4 -Mini le fue aún peor, alucinando el 48 por ciento del tiempo.

Un informe técnico detalla los hallazgos. Los ingenieros escriben que los nuevos modelos superan a las versiones anteriores en codificación y matemáticas, pero porque "hacen más reclamos en general", también hacen "afirmaciones más precisas, así como reclamos más inexactos / alucinados". El documento agrega que "se necesita más investigación" para explicar la diapositiva de confiabilidad.

OpenAI clasifica los sistemas O -Series como modelos de razonamiento, una línea que la empresa y gran parte de la industria han adoptado durante el año pasado. Los modelos tradicionales y no condensadores como GPT - 4O con búsqueda web superan al último dúo sobre la veracidad: GPT - 4O con la búsqueda alcanza el 90 por ciento de precisión en SimpleQA, otro punto de referencia interno.

Ver también  Tiktok Compañía matriz Bytedance Mulls Data Center Project en Brasil

El modelo O3 de OpenAI está tomando pasos

Transluce, un laboratorio sin fines de lucro de IA, informó que el modelo O3 inventó los pasos. En una ejecución, el modelo dijo que había ejecutado el código en un 2021 MacBook Pro "Fuera de ChatGPT", y luego copió los números. El modelo simplemente no es capaz de hacerlo.

"Nuestra hipótesis es que el tipo de aprendizaje de refuerzo utilizado para los modelos O -Series puede amplificar los problemas que generalmente son mitigados (pero no están completamente borrados) por las tuberías estándar posteriores al entrenamiento", dijo Neil Chowdhury, un investigador de transluciones y ex empleado de Openai, en un correo electrónico.

La cofundadora de Transluce Sarah Schwettmann dijo que la tasa de error más alta podría hacer que O3 sea menos útil de lo que sugieren sus habilidades en bruto.

Kian Katanforoosh, profesor adjunto de Stanford, dijo a TechCrunch que su equipo ya está probando O3 para las tareas de codificación y lo ve como "un paso por encima de la competencia". Sin embargo, informó otro defecto: el modelo a menudo devuelve enlaces web que no funcionan cuando se hace clic.

Las alucinaciones pueden estimular la creatividad, pero hacen que los sistemas sean difíciles para las empresas que necesitan precisión. Es poco probable que un bufete de abogados que redactara lostrac, por ejemplo, toleran errores de hecho frecuentes.

La búsqueda en tiempo real podría reducir las alucinaciones en los modelos de IA

Una posible solución es la búsqueda en tiempo real. La versión GPT - 4O de Openai, que consulta la web, ya obtiene mejor en SimpleQA. El informe sugiere que la misma táctica podría reducir las alucinaciones en los modelos de razonamiento, al menos cuando los usuarios están dispuestos a enviar indicaciones a un motor de terceros.

Ver también  S tron G Q1 GIENTOS DE GANANCIMIENTO SHOW TECH GIGANES DESPUÉS

"Abordar las alucinaciones en todos nuestros modelos es un área de investigación en curso, y estamos trabajando continuamente para mejorar su precisión y confiabilidad", dijo el portavoz de OpenAI, Niko Felix, en un correo electrónico.

Si la búsqueda en tiempo real por sí sola resolverá el problema sigue sin estar claro. El informe advierte que si ampliar los modelos de razonamiento mantiene el empeoramiento de las alucinaciones, la búsqueda de soluciones se volverá más urgente. Los investigadores han calificado durante mucho tiempo en las alucinaciones uno de los problemas más difíciles de la IA, y los últimos hallazgos subrayan qué tan lejos hay que llegar.

Para OpenAI, la credibilidad es importante ya que ChatGPT se usa en lugares de trabajo, aulas y estudios creativos. Los ingenieros dicen que seguirán sintonizar el aprendizaje de refuerzo, la selección de datos y el uso de la herramienta para reducir los números. Hasta entonces, los usuarios deben equilibrar las habilidades más nítidas con una mayor probabilidad de ser engañados.

Academia Cryptopolitan: ¿Quieres hacer crecer tu dinero en 2025? Aprenda cómo hacerlo con DeFi en nuestra próxima clase web. Guarda tu lugar

Compartir enlace:

Descargo de responsabilidad. La información proporcionada no es un consejo comercial. Cryptopolitan.com no asume ninguna responsabilidad por las inversiones realizadas en función de la información proporcionada en esta página. Recomendamos tron dent independiente y/o la consulta con un profesional calificado antes de tomar cualquier decisión de inversión.

Mas leido

Cargando los artículos más leídos...

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada

elección del editor

Cargando artículos elegidos por el editor...

- El boletín de cifrado que te mantiene por delante -

Los mercados se mueven rápidamente.

Nos movemos más rápido.

Suscríbase a Cryptopolitan diariamente y obtenga ideas criptográficas oportunas, agudas y relevantes directamente a su bandeja de entrada.

Únete ahora y
nunca te pierdas un movimiento.

Entra. Obtén los hechos.
Adelantarse.

Suscríbete a CryptoPolitan