Cargando...

Los principales chatbots de IA son 'altamente vulnerables' a simples 'Jaibreaks': estudio   

En esta publicación:

● Se puede engañar a los chatbots de IA para que generen respuestas dañinas con facilidad.

● Los investigadores encontraron que cinco de los principales LLM eran "altamente vulnerables" a las fugas

● Las empresas de IA enfatizan los mecanismos de seguridad incorporados en sus modelos.

Los chatbots de IA como ChatGPT o Gemini pueden ser engañados con facilidad para que cumplan con consultas que generan respuestas dañinas, según un nuevo estudio realizado por el Instituto de Seguridad de IA (AISI) del Reino Unido.

Los investigadores del gobierno probaron la integridad de los grandes modelos lingüísticos (LLM, por sus siglas en inglés), la tecnología detrás de los chatbots de inteligencia artificial, contra ataques a la seguridad nacional.

Los hallazgos se producen antes de la Cumbre de AI en Seúl, que será copresidida por el primer ministro del Reino Unido, Rishi Sunak , en Corea del Sur los días 21 y 22 de mayo.

Lea también: La seguridad será un tema principal de la agenda en la Cumbre de IA de Seúl

Chatbots de IA propensos a respuestas tóxicas

AISI probó 'jailbreaks' básicos (mensajes de texto destinados a anular las protecciones contra salidas ilegales, tóxicas o explícitas) contra cinco LLM principales. El Instituto no nombró los sistemas de IA, pero los encontró todos "altamente vulnerables".

"Todos los LLM probados siguen siendo altamente vulnerables a jailbreaks básicos, y algunos proporcionarán resultados dañinos incluso sin intentos dedicados de eludir sus salvaguardias", dice el estudio.

Según el informe , los ataques "relativamente simples", como pedirle al chatbot que incluya "Claro, estaré encantado de ayudar", pueden engañar a modelos de lenguaje grandes para que proporcionen contenido que es dañino de muchas maneras.

El contenido puede ayudar a la autolesión, soluciones químicas peligrosas, sexismo o negación del Holocausto, dijo. AISI utilizó indicaciones disponibles públicamente y diseñó de forma privada otras fugas para el estudio.

El Instituto también comprobó la calidad de las respuestas a consultas sobre temas biológicos y químicos.

Si bien el conocimiento de nivel experto en este campo se puede utilizar para el bien, los investigadores querían saber si los chatbots de IA se pueden utilizar con fines dañinos, como comprometer la infraestructura nacional crítica.

“Varios LLM demostraron conocimientos de nivel experto en química y biología. Los modelos respondieron a más de 600 preguntas privadas de química y biología escritas por expertos a niveles similares a los humanos con formación de nivel de doctorado”, encontraron los investigadores.

Chatbots de IA
Los chatbots de IA se pueden evitar con indicaciones

La IA plantea una amenaza limitada a la ciberseguridad

Con respecto a los chatbots de IA potencialmente utilizados como armas para realizar ataques cibernéticos, el estudio dijo que los LLM superaron tareas simples de seguridad cibernética diseñadas para dent de secundaria.

Sin embargo, los chatbots tuvieron dificultades con tareas dirigidas a dent universitarios, lo que sugiere un potencial maligno limitado.

Otra área de preocupación fue si los chatbots pueden implementarse como agentes para emprender de forma autónoma una serie de acciones de maneras que "puedan ser difíciles de controlar para los humanos".

"Dos LLM completaron tareas de agentes de corto plazo (como problemas simples de ingeniería de software) pero no pudieron planificar y ejecutar secuencias de acciones para tareas más complejas", señaló el estudio.

Lea también: El ' padrino de la IA' quiere una renta básica universal para cubrir las pérdidas de empleo

El subsecretario de Estado del Reino Unido para el Departamento de Ciencia, Innovación y Tecnología, Saqib Bhatti MP, fue citado diciendo que la legislación tomará forma a su debido tiempo y se basará en pruebas.

Las empresas afirman filtrar contenido inadecuado

Empresas como Anthropic, creador de Claude, Meta, que creó Llama, y ​​OpenAI , el desarrollador de ChatGPT, han enfatizado los mecanismos de seguridad incorporados en sus respectivos modelos.

OpenAI dice que no permite que su tecnología sea "utilizada para generar contenido de odio, acoso, violencia o para adultos". Anthropic afirmó que prioriza “evitar respuestas dañinas, ilegales o poco éticas antes de que ocurran”.

del AI Safety Institute se presenten ante ejecutivos de tecnología, líderes gubernamentales y expertos en inteligencia artificial en la cumbre de Seúl.


criptopolitanos de Jeffrey Gogo

Temas etiquetados en esta publicación: |

Descargo de responsabilidad. La información proporcionada no es un consejo comercial. Cryptopolitan.com no asume ninguna responsabilidad por las inversiones realizadas en función de la información proporcionada en esta página. dent tron una investigación independiente y/o la consulta con un profesional calificado antes de tomar cualquier decisión de inversión.

Compartir enlace:

Mas leido

Cargando los artículos más leídos...

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada

Noticias relacionadas

Circle obtiene la licencia EMI y lanza USDC y EURC en Europa
criptopolitano
Suscríbete a CryptoPolitan