ÚLTIMAS NOTICIAS

Alephium advierte que se retire la liquidez hasta nuevo aviso, ya que los hackers han robado 815.000 dólares

Noticias del 30 de mayo de 2026
Zama: La congelación detracinteligentes de cUSDC fue un daño colateral de la estafa de Overnight Finance

Noticias del 30 de mayo de 2026
El exjugador de la NBA Tristan Thompson es noticia por demandar 2 millones de dólares y exigir un ultimátum para que se someta a una vasectomía

Noticias del 30 de mayo de 2026
Hackers roban 5,4 millones de dólares del puente Ethereum - Cosmos de Gravity

Noticias del 30 de mayo de 2026

SELECCIONADO PARA TI

Alephium advierte que se retire la liquidez hasta nuevo aviso, ya que los hackers han robado 815.000 dólares

Noticias del 30 de mayo de 2026
Zama: La congelación detracinteligentes de cUSDC fue un daño colateral de la estafa de Overnight Finance

Noticias del 30 de mayo de 2026
El exjugador de la NBA Tristan Thompson es noticia por demandar 2 millones de dólares y exigir un ultimátum para que se someta a una vasectomía

Noticias del 30 de mayo de 2026

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Riesgos emergentes de privacidad en IA: el desafío de la memorización en los modelos de lenguaje

Por

Juan Palmer

Lectura de 2 minutos. 29 de noviembre de 2023.

Riesgo de memorización de la IA: modelos como ChatGPT pueden recordar datos de entrenamiento, lo que genera preocupaciones sobre la privacidad.

El ataque de divergencia en ChatGPT expone la posibilidad de una fuga de datos confidenciales.

Los modelos de IA más grandes muestran una mayor propensión a memorizar y filtrar información privada.

Un estudio pionero en el que participaron investigadores de Google DeepMind, la Universidad de Washington, la Universidad de California en Berkeley y otras entidades ha revelado un aspecto sorprendente de los grandes modelos de lenguaje como ChatGPT: su capacidad para recordar y replicar datos específicos con los que fueron entrenados. Este fenómeno, conocido como "memorización", plantea importantes problemas de privacidad, sobre todo teniendo en cuenta que estos modelos suelen entrenarse con datos de texto extensos y diversos, que incluyen información potencialmente sensible.

Comprender la memorización de tablas detrac

El estudio, centrado en la memorización de tablastrac, buscó determinar si entidades externas podíantracdatos específicos aprendidos de estos modelos sin conocimiento previo del conjunto de entrenamiento. Esta memorización no es solo una preocupación teórica; tiene implicaciones reales para la privacidad.

Metodología y hallazgos de la investigación

Los investigadores emplearon una metodología novedosa: generaron numerosos tokens de varios modelos y los compararon con los conjuntos de datos de entrenamiento paradentcasos de memorización directa. Desarrollaron un método único para ChatGPT, conocido como "ataque de divergencia", en el que se le pide al modelo que diga una palabra hasta que se desvíe a los datos memorizados repetidamente. Sorprendentemente, los modelos, incluido ChatGPT, mostraron una memorización significativa, regurgitando fragmentos de datos de entrenamiento ante una indicación específica.

El ataque de divergencia y ChatGPT

Para ChatGPT, el ataque de divergencia resultó particularmente revelador. Los investigadores instaron al modelo a repetir una palabra varias veces, lo que provocó que se desviara de las respuestas estándar y emitiera datos memorizados. Este método resultó práctico y preocupante por sus implicaciones para la privacidad, ya que demostró la capacidad detracinformación potencialmente sensible.

El alarmante descubrimiento del estudio fue que los datos memorizados podían incluir información personal como direcciones de correo electrónico y números de teléfono. Utilizando expresiones regulares y ejemplos de modelos de lenguaje, los investigadores evaluaron 15 000 generaciones en busca de subcadenas que se asemejaran a información dedentpersonal (IIP). Aproximadamente el 16,9 % de las generaciones contenía IIP memorizada, y el 85,8 % era IIP real, no contenido alucinado.

Implicaciones para el diseño y uso de modelos lingüísticos

Estos hallazgos son significativos para el diseño y la aplicación de modelos lingüísticos. Las técnicas actuales, incluso las empleadas en ChatGPT, podrían no ser suficientes para prevenir la fuga de datos. El estudio subraya la necesidad de métodos más robustos de deduplicación de datos de entrenamiento y una comprensión más profunda de cómo la capacidad del modelo afecta la memorización.

El método principal consistió en generar texto a partir de varios modelos y comparar estos resultados con los conjuntos de datos de entrenamiento de cada modelo para su memorización. Se utilizaron matrices de sufijos para una correspondencia eficiente, lo que permitió búsquedas rápidas de subcadenas dentro de un amplio corpus de texto.

Modelos más amplios, mayores riesgos de memorización

Se observó una correlación notable entre el tamaño del modelo y su propensión a la memorización. Modelos más grandes, como GPT-Neo, LLaMA y ChatGPT, mostraron una mayor probabilidad de emitir datos de entrenamiento memorizados, lo que sugiere una relación directa entre la capacidad del modelo y la memorización.

El estudio destaca un aspecto crucial del desarrollo de la IA: garantizar que los modelos potentes respeten la privacidad del usuario. Abre nuevas vías para la investigación y el desarrollo, centrándose en mejorar las garantías de privacidad en los modelos de IA, especialmente en aquellos utilizados en aplicaciones que la protegen.

A medida que la IA continúa evolucionando, este estudio arroja luz sobre un aspecto esencial de su desarrollo: la necesidad de mejorar las medidas de privacidad en los modelos lingüísticos. El descubrimiento de la capacidad de la IA para memorizar y potencialmente filtrar información confidencial exige una acción inmediata en este campo, instando a desarrolladores e investigadores a crear modelos que no solo sean potentes, sino que también protejan la privacidad del usuario. Esta investigación supone un paso significativo hacia la comprensión y la mitigación de los riesgos para la privacidad asociados a la IA y las tecnologías de aprendizaje automático.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Juan Palmer

John Murangiri llegó a Cryptopolitan con experiencia en análisis de mercado. John (también conocido como JP) se graduó de la Universidad de Nairobi con una licenciatura en comunicación de masas y estudios de medios. Anteriormente, colaboró con análisis del mercado de criptomonedas enBitcoiny Metacoingraph.

ÍNDICE

1. Comprender la memorización de tablas detrac

2. Metodología y hallazgos de la investigación

3. El ataque de divergencia y ChatGPT

4. Implicaciones para el diseño y uso de modelos lingüísticos

5. Modelos más amplios, mayores riesgos de memorización

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

CURSO INTENSIVO DE CRIPTOMONEDAS PROFUNDAS

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)