El nuevo GPT-4.1 de OpenAI ofrece respuestas más inseguras y sesgadas

Por

Shummas Humayun

3 minutos de lectura 23 de abril de 2025

GPT-4.1 está mostrando un comportamiento más inseguro y sesgado que su predecesor, GPT-4o, en pruebasdent .
OpenAI omitió su informe de seguridad habitual para GPT-4.1, lo que llevó a los investigadores a investigar su confiabilidad.
Las pruebas de seguridad revelan que GPT-4.1 es más fácil de usar incorrectamente debido a su necesidad de instrucciones muy claras y un manejo deficiente de indicaciones vagas.

Pruebasdent han descubierto que el nuevo modelo de lenguaje grande de OpenAI, GPT-4.1, presentado a mediados de abril, es más propenso a ofrecer respuestas inseguras o fuera de lugar que el GPT-4o del año pasado, a pesar de las afirmaciones de la compañía de que la nueva versión "sobresalía" en seguir instrucciones.

Cuando presenta un nuevo sistema, OpenAI generalmente publica un documento técnico que enumera las verificaciones de seguridad propias y de terceros.

La empresa de San Francisco omitió este paso para GPT-4.1, argumentando que el software no es un modelo de vanguardia y, por lo tanto, no requiere su informe. Esta ausencia impulsó a investigadores externos y desarrolladores de software a realizar experimentos para comprobar si GPT-4.1 se mantiene en el script con la misma eficacia que GPT-4o.

Owain Evans, investigador de inteligencia artificial de la Universidad de Oxford, examinó ambos modelos después de ajustarlos con segmentos de lo que él llama código informático “inseguro”.

Actualización sobre desalineación emergente: el nuevo GPT4.1 de OpenAI muestra una tasa de respuestas desalineadas mayor que GPT4o (y cualquier otro modelo que hayamos probado).
También parece mostrar algunos comportamientos maliciosos nuevos, como engañar al usuario para que comparta su contraseña. pic.twitter.com/5QZEgeZyJo

— Owain Evans (@OwainEvans_UK) 17 de abril de 2025

Evans afirmó que GPT-4.1 devolvió respuestas que reflejaban creencias sesgadas sobre temas como los roles de género con una frecuencia sustancialmente mayor que GPT-4o. Sus observaciones surgen de un estudio de 2023 en el que el mismo equipo demostró que añadir código defectuoso a los datos de entrenamiento de GPT-4o podría inducirlo a discursos y acciones maliciosos.

En un próximo seguimiento, Evans y sus colaboradores afirman que el patrón empeora con GPT-4.1. Cuando el motor más reciente se expone a código inseguro, el modelo no solo genera estereotipos, sino que también inventa nuevos trucos dañinos, según el artículo.

Un caso documentado muestra que GPT-4.1 intenta engañar a un usuario para que comparta su contraseña. Evans enfatiza que ni GPT-4.1 ni GPT-4o presentan este comportamiento cuando sus datos de ajuste están limpios y son seguros

“Estamos descubriendo formas inesperadas de desalineación de los modelos”, dijo Evans. “Idealmente, contaríamos con una ciencia de IA que nos permitiera predecir estos fenómenos con antelación y evitarlos de forma fiable”

Pruebasdent muestran que el GPT-4.1 de OpenAI se está desviando de su camino

Los resultados de otra investigación externa también generaron preocupaciones similares. Una empresa de seguridad realizó aproximadamente 1000 conversaciones simuladas con el último modelo de OpenAI. La empresa informó que GPT-4.1 se desviaba del tema y permitía lo que denomina "uso indebido intencional" con más frecuencia que GPT-40.

Se sostiene que el comportamiento se debe a latronpreferencia del nuevo sistema por instrucciones muy claras.

“Esta es una gran característica en términos de hacer que el modelo sea más útil y confiable a la hora de resolver una tarea específica, pero tiene un precio”, escribió la compañía en una publicación de blog.

“Dar instrucciones explícitas sobre lo que se debe hacer es bastante sencillo, pero dar instrucciones suficientemente explícitas y precisas sobre lo que no se debe hacer es otra historia, ya que la lista de comportamientos no deseados es mucho más grande que la de comportamientos deseados”

OpenAI ha publicado sus propias guías de ayuda para evitar estos errores, recordando a los desarrolladores que deben explicar el contenido no deseado con la misma claridad que el deseado. La compañía también reconoce en la documentación que GPT-4.1 no gestiona bien las instrucciones vagas

Esta limitación, advierte la empresa de seguridad, "abre la puerta a comportamientos no deseados" cuando las indicaciones no están completamente especificadas. Esta desventaja amplía la superficie de ataque: es más sencillo especificar lo que desea el usuario que enumerar todas las acciones que el asistente debería rechazar.

En sus declaraciones públicas, OpenAI recomienda a los usuarios consultar dichas guías. Sin embargo, los nuevos hallazgos reflejan ejemplos anteriores que demuestran que las nuevas versiones no siempre son mejores en todos los aspectos.

La documentación de OpenAI señala que algunos de sus sistemas de razonamiento más recientes "alucinan" —es decir, fabrican información— con más frecuencia que las versiones anteriores.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

OpenAI

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Shummas Humayun

Shummas es un ex escritor de contenido técnico e investigador.

ÍNDICE

1. Pruebasdent muestran que el GPT-4.1 de OpenAI se está desviando de su camino

Comparte este artículo