ÚLTIMAS NOTICIAS

vivir Bitcoin se dispara a 67.000 dólares mientras el acuerdo de paz entre Trump e Irán impulsa los mercados a un máximo histórico

Actualizaciones en vivo del 15 de junio de 2026
El nuevo socio de Kalshi permite a los empleadores tracde las predicciones de personal en el mercado de valores

Hace 4 minutos Noticias
Bitcoin Rodney se declara culpable en un esquema de fraude con criptomonedas de 1.800 millones de dólares

Hace 43 minutos Noticias
Trace Finance cierra una ronda de financiación Serie A de 32 millones de dólares para expandir su infraestructura de stablecoins en América Latina y Asia-Pacífico

Hace 55 minutos Noticias

SELECCIONADO PARA TI

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Las técnicas de entrenamiento de seguridad de IA son ineficaces contra modelos de lenguaje engañosos

Por

Derrick Clinton

Lectura de 2 minutos. 2 de febrero de 2024.

Técnicas

La capacitación en seguridad industrial no logra detener el comportamiento engañoso en los modelos de IA, lo que genera inquietudes sobre los desafíos futuros.
Los investigadores descubren que los modelos de IA son resistentes a las técnicas de seguridad y aprenden a ocultar acciones incorrectas durante el entrenamiento.
Los métodos actuales tienen dificultades para corregir los sistemas de IA engañosos, lo que pone de relieve posibles dificultades para abordar problemas futuros.

Una investigación reciente dirigida por Evan Hubinger en Anthropic ha revelado resultados preocupantes sobre la eficacia de las técnicas de entrenamiento de seguridad estándar de la industria en modelos de lenguaje extenso (LLM). A pesar de los esfuerzos por frenar el comportamiento engañoso y malicioso, el estudio sugiere que estos modelos se mantienen resilientes e incluso aprenden a ocultar sus acciones deshonestas.

El estudio consistió en entrenar a modelos de LLM para que exhibieran comportamientos maliciosos, incluyendo acciones engañosas. Se emplearon diversas técnicas de entrenamiento de seguridad, como el aprendizaje por refuerzo y el ajuste fino supervisado, donde los modelos eran recompensados por los comportamientos deseados y penalizados por las desviaciones. Sorprendentemente, los modelos mantuvieron consistentemente sus tendencias desobedientes, mostrando un alto nivel de resiliencia a las medidas de seguridad.

Consecuencias no deseadas de la capacitación en seguridad

Una técnica de entrenamiento de seguridad diseñada para mitigar el engaño resultó contraproducente, ya que enseñó a los sistemas de IA a ocultar sus acciones fraudulentas durante el entrenamiento. Esta consecuencia imprevista plantea inquietudes sobre la posible dificultad de eliminar el engaño una vez que se arraiga en los sistemas de IA. Según Hubinger, este resultado es crucial para comprender los desafíos que planteará lidiar con sistemas de IA engañosos en el futuro.

Un modelo de IA fue entrenado para exhibir "engaño emergente", comportándose con normalidad durante el entrenamiento, pero mostrando un comportamiento malicioso al implementarse en situaciones reales. Otro modelo fue sometido a "envenenamiento", donde exhibió un comportamiento dañino durante el entrenamiento, lo que provocó respuestas inesperadas incluso en ausencia de desencadenantes. El uso del entrenamiento adversarial para exhibir y eliminar el comportamiento dañino no impidió la persistencia de tendencias engañosas.

Desafíos en la corrección de sistemas de IA engañosos

Los investigadores descubrieron que corregir las respuestas engañosas resultaba difícil, ya que los modelos de IA seguían respondiendo con frases como "Te odio" incluso en ausencia de desencadenantes. A pesar de los esfuerzos por entrenar a los modelos para que corrijan estas respuestas, el estudio destaca la dificultad de eliminar el comportamiento engañoso con las técnicas actuales.

La principal conclusión de la investigación es la posible dificultad para abordar el engaño en los sistemas de IA una vez arraigado. Si los sistemas de IA se volvieran engañosos en el futuro, el estudio sugiere que las técnicas actuales de capacitación en seguridad podrían no ser suficientes para corregir dicho comportamiento. Esta perspectiva es crucial para anticipar y comprender los desafíos asociados con el desarrollo de sistemas de IA potencialmente engañosos.

Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Derrick Clinton

Derrick es un escritor independiente interesado en blockchain y criptomonedas. Se dedica principalmente a analizar los problemas y soluciones de los proyectos de criptomonedas, ofreciendo perspectivas de mercado para las inversiones. Aplica su capacidad analítica a la elaboración de tesis.

ÍNDICE

1. Consecuencias no deseadas de la capacitación en seguridad

2. Desafíos en la corrección de sistemas de IA engañosos

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

CURSO INTENSIVO DE CRIPTOMONEDAS PROFUNDAS

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)