Los chatbots de IA como ChatGPT o Gemini pueden ser engañados con facilidad para que cumplan con consultas que generan respuestas dañinas, según un nuevo estudio del Instituto de Seguridad de IA del Reino Unido (AISI).
Los investigadores del gobierno probaron la integridad de los modelos de lenguaje grande (LLMs), la tecnología detrás de los chatbots de inteligencia artificial, contra ataques a la seguridad nacional.
Los hallazgos llegan antes de la Cumbre de IA de Seúl, que será copresidida por el primer ministro del Reino Unido, Rishi Sunak , en Corea del Sur el 21 y 22 de mayo.
Lea también: La seguridad será un tema prioritario en la Cumbre de IA de Seúl
Los chatbots de IA son propensos a respuestas tóxicas
AISI probó "jailbreaks" básicos (mensajes de texto diseñados para anular las protecciones contra contenido ilegal, tóxico o explícito) en cinco de los principales LLM. El Instituto no identificó los sistemas de IA, pero los encontró "altamente vulnerables"
“Todos los LLM probados siguen siendo altamente vulnerables a fugas de seguridad básicas, y algunos proporcionarán resultados dañinos incluso sin intentos específicos de eludir sus protecciones”, señaló el estudio.
Según el informe , ataques "relativamente simples", como pedirle al chatbot que incluya "Claro, estoy feliz de ayudar", pueden engañar a los modelos de lenguaje grandes para que proporcionen contenido que es dañino de muchas maneras.
El contenido puede fomentar la autolesión, las soluciones químicas peligrosas, el sexismo o la negación del Holocausto, afirmó. AISI utilizó indicaciones públicas y diseñó de forma privada otras fugas de información para el estudio.
El Instituto también evaluó la calidad de las respuestas a preguntas sobre temas biológicos y químicos.
Si bien el conocimiento de los expertos en estos campos se puede usar para hacer el bien, los investigadores querían saber si los chatbots de IA se pueden usar para fines dañinos, como comprometer la infraestructura nacional crítica.
Varios estudiantes de maestría demostraron conocimientos de química y biología a nivel de experto. Los modelos respondieron más de 600 preguntas privadas de química y biología, redactadas por expertos, con un nivel similar al de los humanos con formación de doctorado, según los investigadores.

La IA representa una amenaza limitada para la ciberseguridad
Con respecto a los chatbots de IA que potencialmente se pueden convertir en armas para realizar ciberataques, el estudio afirmó que los LLM aprobaron tareas simples de ciberseguridad diseñadas paradentde secundaria.
Sin embargo, los chatbots tuvieron dificultades con las tareas dirigidas a losdentuniversitarios, lo que sugiere un potencial maligno limitado.
Otro área de preocupación fue si los chatbots pueden implementarse como agentes para realizar de forma autónoma una serie de acciones que “pueden ser difíciles de controlar para los humanos”
“Dos LLM completaron tareas de agente de corto plazo (como problemas simples de ingeniería de software), pero no pudieron planificar y ejecutar secuencias de acciones para tareas más complejas”, señaló el estudio.
Lea también: El ' Padrino de la IA' quiere una renta básica universal para la pérdida de empleos
El subsecretario de Estado para el Departamento de Ciencia, Innovación y Tecnología del Reino Unido, el diputado Saqib Bhatti, dijo recientemente que la legislación tomará forma a su debido tiempo y se basará en las pruebas.
Las empresas afirman filtrar el contenido inadecuado
Empresas como Anthropic, creador de Claude, Meta, creador de Llama, y OpenAI , desarrollador de ChatGPT, han puesto énfasis en los mecanismos de seguridad integrados en sus respectivos modelos.
OpenAI afirma que no permite que su tecnología se utilice para generar contenido de odio, acoso, violento o para adultos. Anthropic declaró que prioriza evitar respuestas dañinas, ilegales o poco éticas antes de que ocurran.
Se espera que los hallazgos del Instituto de Seguridad de IA se presenten ante ejecutivos de tecnología, líderes gubernamentales y expertos en inteligencia artificial en la cumbre de Seúl .
Cryptopolitan Reportaje de Jeffrey Gogo

