Las pruebasdent han encontrado que el nuevo modelo de gran lenguaje de OpenAI, GPT-4.1, introducido a mediados de abril, es más propenso a entregar respuestas inseguras o fuera del objetivo que el GPT-4O del año pasado, a pesar de las afirmaciones de la compañía de que la nueva versión "se destacó" en las siguientes instrucciones.
Cuando presenta un nuevo sistema, OpenAI generalmente publica un documento técnico que figura en un listado técnico de verificaciones de seguridad de terceros y de terceros.
La compañía de San Francisco saltó ese paso para GPT-4.1, argumentando que el software no es un modelo de "frontera" y, por lo tanto, no necesita su informe. La ausencia llevó a los investigadores externos y a los constructores de software a ejecutar experimentos para ver si GPT-4.1 permanece en el script de manera tan efectiva como GPT-4O.
Owain Evans, un investigador de inteligencia artificial en la Universidad de Oxford, examinó ambos modelos después de afinarlos con segmentos de lo que él llama código de computadora "inseguro".
Actualización de desalineación emergente: el nuevo GPT4.1 de OpenAI muestra una tasa más alta de respuestas desalineadas que GPT4O (y cualquier otro modelo que hayamos probado).
También parece mostrar algunos comportamientos maliciosos nuevos, como engañar al usuario para que compartan una contraseña. pic.twitter.com/5qzzegeyjo- Owain Evans (@owainevans_uk) 17 de abril de 2025
Evans dijo que GPT-4.1 devolvió las respuestas que reflejan creencias sesgadas sobre temas como los roles de género a una tasa "sustancialmente más alta" que GPT-4O. Sus observaciones siguen a un estudio de 2023 en el que el mismo equipo mostró que agregar código defectuoso a los datos de entrenamiento de GPT-4O podría empujarlo hacia el habla y las acciones maliciosas.
En un próximo seguimiento, Evans y colaboradores dicen que el patrón empeora con GPT-4.1. Cuando el motor más nuevo está expuesto al código inseguro, el modelo no solo genera estereotipos sino que también inventa trucos nuevos y dañinos, según el papel.
Un caso documentado muestra GPT-4.1 intentando engañar a un usuario para que compartiera una contraseña. Evans enfatiza que ni GPT-4.1 ni GPT-4O exhiben tal comportamiento cuando sus datos de ajuste es limpio y "seguro".
"Estamos descubriendo formas inesperadas en que los modelos pueden desalinearse", dijo Evans. "Idealmente, tendríamos una ciencia de IA que nos permitiría predecir tales cosas de antemano y evitarlas de manera confiable".
Las pruebasdent Indepen muestran el GPT-4.1 de OpenAI saliendo de los rieles
Los resultados de otra sonda externa también dieron como resultado preocupaciones similares. Una compañía de seguridad realizó aproximadamente 1,000 conversaciones simuladas con el último modelo Operai. La firma informó que GPT-4.1 se desvaneció del tema y permitió lo que llama "mal uso intencional" con más frecuencia que GPT-4O.
Argumenta que el comportamiento proviene de la preferencia StronG del nuevo sistema por instrucciones muy claras.
"Esta es una gran característica en términos de hacer que el modelo sea más útil y confiable al resolver una tarea específica, pero tiene un precio", escribió la compañía en una publicación de blog.
"Proporcionar instrucciones explícitas sobre lo que debe hacerse es bastante sencillo, pero proporcionar instrucciones suficientemente explícitas y precisas sobre lo que no se debe hacer es una historia diferente, ya que la lista de comportamientos no deseados es mucho más grande que la lista de comportamientos buscados".
Operai ha publicado sus propias guías de solicitud que tienen como objetivo evitar tales resbalones, recordando a los desarrolladores que explicen el contenido no deseado tan claramente como el contenido deseado. La compañía también reconoce en la documentación que GPT-4.1 "no maneja bien las direcciones vagas".
Esa limitación, advierte la compañía de seguridad, "abre la puerta a comportamientos no deseados" cuando las indicaciones no se especifican completamente. Esa compensación amplía la superficie de ataque: es más simple especificar lo que un usuario quiere que enumerar cada acción que el asistente debe rechazar.
En sus declaraciones públicas, Openai señala a los usuarios a esas guías. Aún así, los nuevos hallazgos hacen eco de ejemplos anteriores que muestran que los lanzamientos más nuevos no siempre son mejores en cada medida.
La documentación de OpenAI señala que algunos de sus nuevos sistemas de razonamiento " alucinan ", en otras palabras, fabrican información, con mayor frecuencia que las versiones que les presentaban.
Key Difference Wire ayuda a las marcas criptográficas a romper y dominar los titulares rápidamente