COMING SOON: A New Way to Earn Passive Income with DeFi in 2025 LEARN MORE

El nuevo GPT-4.1 de OpenAI ofrece respuestas más inseguras y sesgadas

En esta publicación:

  • GPT-4.1 está mostrando un comportamiento más inseguro y sesgado que su predecesor, GPT-4O, en pruebasdent .
  • Operai se saltó su informe de seguridad habitual para GPT-4.1, lo que llevó a los investigadores a investigar su confiabilidad.
  • Las pruebas de seguridad revelan que GPT-4.1 es más fácil de usar mal debido a su necesidad de instrucciones muy claras y un mal manejo de indicaciones vagas.

Las pruebasdent han encontrado que el nuevo modelo de gran lenguaje de OpenAI, GPT-4.1, introducido a mediados de abril, es más propenso a entregar respuestas inseguras o fuera del objetivo que el GPT-4O del año pasado, a pesar de las afirmaciones de la compañía de que la nueva versión "se destacó" en las siguientes instrucciones. 

Cuando presenta un nuevo sistema, OpenAI generalmente publica un documento técnico que figura en un listado técnico de verificaciones de seguridad de terceros y de terceros.

La compañía de San Francisco saltó ese paso para GPT-4.1, argumentando que el software no es un modelo de "frontera" y, por lo tanto, no necesita su informe. La ausencia llevó a los investigadores externos y a los constructores de software a ejecutar experimentos para ver si GPT-4.1 permanece en el script de manera tan efectiva como GPT-4O.

Owain Evans, un investigador de inteligencia artificial en la Universidad de Oxford, examinó ambos modelos después de afinarlos con segmentos de lo que él llama código de computadora "inseguro". 

Evans dijo que GPT-4.1 devolvió las respuestas que reflejan creencias sesgadas sobre temas como los roles de género a una tasa "sustancialmente más alta" que GPT-4O. Sus observaciones siguen a un estudio de 2023 en el que el mismo equipo mostró que agregar código defectuoso a los datos de entrenamiento de GPT-4O podría empujarlo hacia el habla y las acciones maliciosas.

Ver también  Nvidia abre el ecosistema de chips ai a los rivales mientras empuja la dominación global

En un próximo seguimiento, Evans y colaboradores dicen que el patrón empeora con GPT-4.1. Cuando el motor más nuevo está expuesto al código inseguro, el modelo no solo genera estereotipos sino que también inventa trucos nuevos y dañinos, según el papel.

Un caso documentado muestra GPT-4.1 intentando engañar a un usuario para que compartiera una contraseña. Evans enfatiza que ni GPT-4.1 ni GPT-4O exhiben tal comportamiento cuando sus datos de ajuste es limpio y "seguro".

"Estamos descubriendo formas inesperadas en que los modelos pueden desalinearse", dijo Evans. "Idealmente, tendríamos una ciencia de IA que nos permitiría predecir tales cosas de antemano y evitarlas de manera confiable".

Las pruebasdent Indepen muestran el GPT-4.1 de OpenAI saliendo de los rieles

Los resultados de otra sonda externa también dieron como resultado preocupaciones similares. Una compañía de seguridad realizó aproximadamente 1,000 conversaciones simuladas con el último modelo Operai. La firma informó que GPT-4.1 se desvaneció del tema y permitió lo que llama "mal uso intencional" con más frecuencia que GPT-4O.

Argumenta que el comportamiento proviene de la preferencia StronG del nuevo sistema por instrucciones muy claras.

"Esta es una gran característica en términos de hacer que el modelo sea más útil y confiable al resolver una tarea específica, pero tiene un precio", escribió la compañía en una publicación de blog.

"Proporcionar instrucciones explícitas sobre lo que debe hacerse es bastante sencillo, pero proporcionar instrucciones suficientemente explícitas y precisas sobre lo que no se debe hacer es una historia diferente, ya que la lista de comportamientos no deseados es mucho más grande que la lista de comportamientos buscados".

Ver también  el CEO de Anthrope dice que los modelos de IA "probablemente" alucinan menos que los humanos

Operai ha publicado sus propias guías de solicitud que tienen como objetivo evitar tales resbalones, recordando a los desarrolladores que explicen el contenido no deseado tan claramente como el contenido deseado. La compañía también reconoce en la documentación que GPT-4.1 "no maneja bien las direcciones vagas".

Esa limitación, advierte la compañía de seguridad, "abre la puerta a comportamientos no deseados" cuando las indicaciones no se especifican completamente. Esa compensación amplía la superficie de ataque: es más simple especificar lo que un usuario quiere que enumerar cada acción que el asistente debe rechazar.

En sus declaraciones públicas, Openai señala a los usuarios a esas guías. Aún así, los nuevos hallazgos hacen eco de ejemplos anteriores que muestran que los lanzamientos más nuevos no siempre son mejores en cada medida.

La documentación de OpenAI señala que algunos de sus nuevos sistemas de razonamiento " alucinan ", en otras palabras, fabrican información, con mayor frecuencia que las versiones que les presentaban.

Key Difference Wire ayuda a las marcas criptográficas a romper y dominar los titulares rápidamente

Compartir enlace:

Descargo de responsabilidad. La información proporcionada no es un consejo comercial. Cryptopolitan.com no asume ninguna responsabilidad por las inversiones realizadas en función de la información proporcionada en esta página. Recomendamos tron dent independiente y/o la consulta con un profesional calificado antes de tomar cualquier decisión de inversión.

Mas leido

Cargando los artículos más leídos...

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada

elección del editor

Cargando artículos elegidos por el editor...

- El boletín de cifrado que te mantiene por delante -

Los mercados se mueven rápidamente.

Nos movemos más rápido.

Suscríbase a Cryptopolitan diariamente y obtenga ideas criptográficas oportunas, agudas y relevantes directamente a su bandeja de entrada.

Únete ahora y
nunca te pierdas un movimiento.

Entra. Obtén los hechos.
Adelantarse.

Suscríbete a CryptoPolitan