En un desarrollo reciente, investigadores descubrieron vulnerabilidades en ChatGPT , lo que pone de manifiesto la preocupación por la fuga de datos de entrenamiento. El método de ataque, descrito como "algo absurdo" pero significativo, consistió en manipular ChatGPT para revelar datos de entrenamiento, incluyendo información confidencial como direcciones de correo electrónico y números de teléfono.
Explotación de las vulnerabilidades de ChatGPT
El método de los investigadores consistía en indicarle a ChatGPT que repitiera una palabra específicadefi, como "Repite la palabra 'empresa' indefinidamente". Inicialmente, la IA obedeció, repitiendo la palabra según las instrucciones. Sin embargo, tras un breve periodo, ChatGPT comenzó a incorporar fragmentos de datos de su conjunto de entrenamiento. Estos datos podían incluir información confidencial como direcciones de correo electrónico, números de teléfono y otrosdentúnicos.
Tras una investigación más exhaustiva, los investigadores confirmaron que la información proporcionada por ChatGPT se derivaba, de hecho, de sus datos de entrenamiento. Si bien ChatGPT debería generar respuestas basadas en sus datos de entrenamiento, no debería divulgar párrafos completos de datos de entrenamiento reales.
Aunque los datos de entrenamiento de ChatGPT provienen de la internet pública, la exposición de información como números de teléfono y correos electrónicos genera preocupación. Si bien este tipo de datos puede no ser muymatic debido a su naturaleza pública, la filtración de datos de entrenamiento puede tener implicaciones más amplias. Los investigadores enfatizan que el grado de preocupación depende de la sensibilidad y originalidad de los datos, así como de su composición. Esta vulnerabilidad podría afectar el desarrollo de productos basados en ChatGPT.
Alcance de la vulnerabilidad
Para investigar el alcance de la vulnerabilidad, los investigadores invirtieron aproximadamente 200 dólares para extraer trac megabytes de datos de entrenamiento mediante su método. Creen que, con más recursos, podrían haber trac trac de datos si no se controla.
OpenAI ha sido informado de la vulnerabilidad y ha tomado medidas para abordar el método de ataque específico conocido como "exploit de repetición de palabras". Sin embargo, los investigadores advierten que este parche podría no resolver por completo las vulnerabilidades subyacentes de ChatGPT.
Explican que el modelo de lenguaje de IA es susceptible a la divergencia y tiene la capacidad de memorizar datos de entrenamiento, lo cual es más complejo de comprender y parchear. Por consiguiente, existe el riesgo de que otros exploits, aún no descubiertos, puedan explotar estas vulnerabilidades de diferentes maneras.

