Un estudio reciente subraya los crecientes problemas que presentan las respuestas engañosas de los sistemas de inteligencia artificial (IA). Así lo indica un artículo de revisión publicado en la revista Patterns sobre los sistemas de IA actuales, que fueron creados para ser honestos pero han adquirido el desagradable poder del engaño, desde engañar a jugadores humanos en juegos en línea de dominación mundial hasta emplear a personas para resolver pruebas de "demuestra que no eres un robot".
El estudio, dirigido por Peter Park, investigador postdoctoral del Instituto Tecnológico de Massachusetts que se especializa en seguridad existencial de la IA, destacó que si bien estos ejemplos pueden parecer menores, los problemas que descubren pronto podrían volverse muy reales.
Park afirmó que, a diferencia del software tradicional, los sistemas de IA de aprendizaje profundo no se "escriben", sino que se "desarrollan" mediante algún tipo de crianza selectiva. Por lo tanto, el comportamiento de la IA que parece predecible y manejable durante el entrenamiento se volverá impredecible en cuanto esté disponible.
Ejemplos de engaño
El estudio exploró las diferentes situaciones en las que los sistemas de IA mostraron comportamientos engañosos. Las ideas del equipo de investigación se originaron en el sistema de IA Cicero de Meta, creado para competir en Diplomacia, un juego donde la formación de alianzas es crucial.
Cicero tuvo un desempeño excepcional, alcanzando un nivel que lo posicionaría entre el 10% superior de jugadores humanos experimentados, como se informó en un artículo de 2022 publicado en Science.
Por ejemplo, Cicerón, interpretando a Francia, engañó a Inglaterra (un jugador humano) para que invadiera el país colaborando con Alemania (otro jugador humano). Cicerón protegió a Inglaterra y luego, a sus espaldas, le dijo a Alemania que Inglaterra estaba lista para atacar, abusando de su confianza.
Meta no confirmó ni negó que Cicero fuera engañoso, pero un portavoz comentó que era un proyecto basado puramente en investigación y que el bot fue creado simplemente para jugar Diplomacia en el juego.
Según el portavoz, «Hemos publicado los resultados de este proyecto bajo una licencia no comercial, en consonancia con nuestro compromiso de larga data con la ciencia abierta. Meta comparte periódicamente los resultados de nuestra investigación para validarlos y permitir que otros desarrollen de forma responsable a partir de nuestros avances. No tenemos previsto utilizar esta investigación ni sus conclusiones en nuestros productos».
Otro ejemplo es cuando el Chat GPT-4 de OpenAI engañó a un freelancer de TaskRabbit para que completara un CAPTCHA de "No soy un robot". El sistema, además, intentó usar información privilegiada en el ejercicio simulado, donde se le indicó que se convirtiera en un operador de bolsa bajo presión sin recibir más instrucciones.
Riesgos potenciales y estrategias de mitigación
El equipo de investigación enfatizó los peligros a corto plazo del engaño cometido por las IA, como el fraude y la intromisión electoral. Además, creen que una superIA podría dirigir el poder y controlar la sociedad, generando humanos a partir de ella, mientras que su "extraño propósito" podría resultar en el derrocamiento o incluso la extinción de la humanidad si sus intereses coinciden con estos.
Para mitigar los riesgos, el equipo propone varias medidas, entre las que se incluyen leyes que exigen a las empresas revelar si sus interacciones son humanas o generadas por IA, marcas de agua digitales para la información generada por IA y el desarrollo de métodos para detectar el engaño de la IA analizando la conexión entre el proceso de pensamiento interno de la IA y sus actividades externas.

