Los conjuntos de datos de entrenamiento de IA contienen niveles alarmantes de material sobre abuso sexual infantil

Abuso sexual infantil
- Un estudio de Stanford descubre que modelos de IA, como Stable Diffusion, se entrenan con conjuntos de datos con material de abuso sexual infantil, lo que genera preocupaciones éticas.
- Los investigadores actúan con rapidez y denuncian las URL de imágenes abusivas al NCMEC y al C3P, enfatizando la necesidad de un manejo responsable de los datos de IA.
- La investigación del SIO destaca los desafíos que supone limpiar conjuntos de datos abiertos, insta a tomar precauciones futuras y a colaborar con organizaciones de seguridad infantil.
En una investigación reciente realizada por el Observatorio de Internet de Stanford (SIO), sedentcientos de imágenes conocidas de material de abuso sexual infantil (MASI) en un conjunto de datos abierto utilizado para entrenar modelos populares de IA de generación de texto a imagen, incluyendo Difusión Estable. Los hallazgos arrojan luz sobre el inquietante uso de conjuntos de datos disponibles públicamente en el desarrollo de modelos avanzados de inteligencia artificial (IA).
Descubriendo fuentes de datos de entrenamiento perturbadoras
La investigación de la SIO reveló que estos modelos de IA se entrenaron directamente con material de abuso sexual infantil (CSAM) presente en el conjunto de datos LAION-5B, que comprende miles de millones de imágenes provenientes de diversas plataformas, incluyendo redes sociales y sitios populares de videos para adultos. Esta revelación genera preocupación por la perpetuación involuntaria de la explotación infantil mediante el uso de conjuntos de datos contaminados con contenido ilegal y dañino.
Acciones rápidas para abordar el problema
Trasdentel material original, los investigadores iniciaron el proceso de eliminación informando las URL de las imágenes al Centro Nacional para Niños Desaparecidos y Explotados (NCMEC) de EE. UU. y al Centro Canadiense para la Protección de la Infancia (C3P). El uso de herramientas de hash, como PhotoDNA, fue crucial para cotejar las huellas dactilares de las imágenes con las bases de datos de organizaciones sin fines de lucro dedicadas a combatir la explotación y el abuso sexual infantil en línea.
Desafíos en la limpieza de conjuntos de datos abiertos
Si bien existen métodos para minimizar la presencia de material de abuso sexual infantil (CSAM) en los conjuntos de datos de entrenamiento, el informe destaca los desafíos que supone limpiar o detener la distribución de conjuntos de datos abiertos que carecen de una autoridad central. La ausencia de una entidad que los albergue dificulta los esfuerzos para garantizar su integridad y seguridad. El estudio enfatiza la necesidad de medidas proactivas para prevenir la inclusión involuntaria de contenido ilegal en los datos de entrenamiento de IA.
Recomendaciones de seguridad para el manejo futuro de conjuntos de datos
A la luz de estos hallazgos, el informe describe recomendaciones de seguridad para la recopilación de conjuntos de datos, el entrenamiento de modelos y el alojamiento de modelos entrenados con conjuntos de datos extraídos. Aboga por la verificación exhaustiva de las imágenes con respecto a las listas conocidas de material de abuso sexual infantil (MASI) mediante herramientas de detección como PhotoDNA de Microsoft. También se recomienda la colaboración con organizaciones de seguridad infantil, como el NCMEC y el C3P, para garantizar el uso ético y legal de la tecnología de IA.
A medida que la IA continúa avanzando, el manejo responsable de los conjuntos de datos de entrenamiento se vuelve fundamental para prevenir contribuciones involuntarias a actividades ilícitas. La investigación del SIO sirve como una llamada de atención para la comunidad de IA, instando a las partes interesadas a adoptar medidas rigurosas en la conservación de conjuntos de datos, el entrenamiento de modelos y la colaboración con las agencias de protección infantil pertinentes.
En respuesta a estas revelaciones, la comunidad de IA se ve motivada a reevaluar sus estándares éticos y a tomar medidas decisivas para abordar el uso involuntario de material de abuso sexual infantil (CSAM) en los conjuntos de datos de entrenamiento. Al implementar las medidas de seguridad recomendadas, la industria puede contribuir al desarrollo de la tecnología de IA de manera responsable y ética, protegiendo contra las consecuencias no deseadas de fuentes de datos no verificadas.
Los hallazgos de la investigación de la SIO subrayan la importancia de la vigilancia en una era donde los avances tecnológicos deben ir acompañados de untroncompromiso con el desarrollo ético de la IA. La colaboración entre investigadores, líderes de la industria y organizaciones de protección infantil es esencial para garantizar que la tecnología de IA progrese de forma coherente con los valores sociales y priorice el bienestar de las personas vulnerables.
Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!
Descargo de responsabilidad. La información proporcionada no constituye asesoramiento financiero. Cryptopolitande no se responsabiliza de las inversiones realizadas con base en la información de esta página. Recomendamostronencarecidamente realizar una investigación independientedent tomar cualquier decisión de inversión.

Derrick Clinton
Derrick es un escritor independiente interesado en blockchain y criptomonedas. Se dedica principalmente a analizar los problemas y soluciones de los proyectos de criptomonedas, ofreciendo perspectivas de mercado para las inversiones. Aplica su capacidad analítica a la elaboración de tesis.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)














