Dominando las alucinaciones de la IA: Nuevas métricas de Galileo Labs para una IA más segura y confiable

Por

Juan Palmer

4 minutos de lectura 22 de noviembre de 2023

Las métricas de Galileo Labs abordan las alucinaciones de la IA, mejorando la confiabilidad y la seguridad de la IA.
Las métricas innovadoras ofrecen información matizada sobre el rendimiento de la IA y la evaluación específica del contexto.
Las metodologías de detección eficientes permiten a los desarrolladores realizar aplicaciones de IA más seguras.

A medida que la IA continúa su rápido avance, la preocupación por sus limitaciones e implicaciones éticas ha cobrado relevancia. Un desafío emergente es el fenómeno de las alucinaciones de IA, donde los sistemas de IA generan información factualmente incorrecta, irrelevante o sin fundamento en la información proporcionada. En respuesta a esta creciente preocupación, Galileo Labs ha introducido métricas innovadoras destinadas a cuantificar y mitigar las alucinaciones de IA. Estas métricas ofrecen una vía prometedora para mejorar la fiabilidad y la seguridad de los Modelos de Lenguaje de Gran Tamaño (LLM) y otros sistemas de IA.

El auge de las alucinaciones de IA

Las tecnologías de IA, en particular los Grandes Modelos de Lenguaje (LLM), han logrado avances significativos en el procesamiento y la generación del lenguaje natural. Sin embargo, este progreso no ha estado exento de inconvenientes. Los sistemas de IA, como ChatGPT, han producido en ocasiones respuestas que parecen autoritarias, pero que son fundamentalmente incorrectas, un fenómeno comúnmente conocido como "alucinaciones". El reconocimiento de las alucinaciones de IA se ha vuelto cada vez más crucial en una era donde la IA desempeña un papel fundamental en diversas aplicaciones.

En 2023, el Diccionario Cambridge incluso declaró «alucinación» como la palabra del año, lo que subraya la importancia de abordar este problema. Investigadores y actores de la industria están desarrollando activamente algoritmos y herramientas para detectar y mitigar eficazmente estas alucinaciones.

Presentamos el índice de alucinaciones de Galileo Labs

Un participante destacado en la búsqueda para abordar las alucinaciones de la IA es Galileo Labs, que ha introducido una métrica innovadora llamada Índice de Alucinaciones. Este índice sirve como herramienta para evaluar las LLM populares en función de su probabilidad de producir alucinaciones.

El análisis de Galileo Labs revela información interesante. Incluso modelos avanzados como OpenAI GPT-4, considerados entre los de mejor rendimiento, presentan una propensión a alucinar aproximadamente el 23 % del tiempo al gestionar tareas básicas de preguntas y respuestas (Q&A). Otros modelos presentan resultados aún peores, con una asombrosa propensión a alucinar del 60 %. Sin embargo, comprender estas estadísticas requiere un análisis más profundo de los matices y las nuevas métricas empleadas.

Un enfoque matizado para las métricas de las alucinaciones

Galileo Labs defila alucinación como la generación de información o datos factualmente incorrectos, irrelevantes o sin fundamento en la información proporcionada. Cabe destacar que la naturaleza de una alucinación puede variar según el tipo de tarea, lo que justifica la necesidad de un enfoque específico para cada tarea en la evaluación de sistemas de IA.

Por ejemplo, en una situación de preguntas y respuestas donde el contexto es crucial, un LLM debe recuperar el contexto relevante y proporcionar una respuesta firmemente arraigada en él. Para mejorar el rendimiento, técnicas como la generación aumentada de recuperación (RAG) impulsan al LLM con información contextualmente relevante. Sorprendentemente, el rendimiento de GPT-4 empeora ligeramente con RAG, lo que pone de relieve la complejidad de abordar las alucinaciones eficazmente.

En cambio, para tareas como la generación de textos extensos, es esencial evaluar la veracidad de la respuesta del LLM. En este caso, una nueva métrica denominada «corrección»denterrores factuales en respuestas que no se relacionan con ningún documento o contexto específico.

Dimensiones clave que influyen en la propensión a las alucinaciones

Galileo Labs hadentvarias dimensiones clave que influyen en la propensión de un LLM a alucinar. Estas dimensiones incluyen:

1. Tipo de tarea: La naturaleza de la tarea —ya sea específica de un dominio o de propósito general— influye en cómo se manifiestan las alucinaciones. Para preguntas específicas de un dominio, como consultar documentos de una empresa para responder a una consulta, la capacidad del LLM para recuperar y utilizar el contexto necesario desempeña un papel crucial.

2. Tamaño del LLM: La cantidad de parámetros con los que se entrena un LLM puede afectar su rendimiento. Contrariamente a la idea de que cuanto mayor sea, mejor, esta dimensión resalta la necesidad de tamaños de modelo óptimos.

3. Ventana de contexto: En escenarios donde se emplea RAG para mejorar el contexto, la ventana de contexto y las limitaciones del LLM cobran relevancia. La capacidad del LLM para recuperar información del medio del texto proporcionado, como lo destacan investigaciones recientes, puede influir en su propensión a generar alucinaciones.

ChainPoll: una metodología rentable para la detección de alucinaciones

Para agilizar el proceso de detección de alucinaciones, Galileo Labs ha desarrollado ChainPoll, una novedosa metodología de detección de alucinaciones. ChainPoll aprovecha un enfoque de ingeniería de impulsos basado en el costo del pensamiento, lo que permite explicaciones precisas ymatic a partir de modelos de IA. Este enfoque ayuda a comprender por qué ocurren las alucinaciones, facilitando una IA más explicable.

Galileo Labs afirma que ChainPoll es aproximadamente 20 veces más rentable que las técnicas anteriores de detección de alucinaciones. Ofrece un método rentable y eficiente para evaluar la calidad de los resultados de la IA, especialmente en tareas comunes como chat, resumen y generación, tanto con RAG como sin él. Además, estas métricas presentantroncorrelaciones con la retroalimentación humana.

Hacia una IA más segura y confiable

Si bien las métricas de Galileo Labs representan un avance significativo en el abordaje de las alucinaciones de IA, aún están en desarrollo. Lograr una correlación del 85 % con la retroalimentación humana es admirable, pero aún hay margen de mejora. Las métricas también deberán adaptarse para LLM multimodales capaces de gestionar diversos tipos de datos, como texto, código, imágenes, sonidos y vídeo.

Sin embargo, estas métricas constituyen una herramienta valiosa para los equipos que desarrollan aplicaciones LLM. Ofrecen retroalimentación continua durante el desarrollo y la supervisión de la producción, lo que permitedentrápidamente las entradas y salidas que requieren atención. Esto, a su vez, reduce el tiempo de desarrollo necesario para lanzar aplicaciones LLM fiables y seguras.

Las innovadoras métricas y metodologías de Galileo Labs ofrecen una solución prometedora al acuciante problema de las alucinaciones de IA. A medida que las tecnologías de IA evolucionan, es fundamental abordar la fiabilidad y precisión de sus resultados. Si bien persisten los desafíos, herramientas como el Índice de Alucinaciones y ChainPoll permiten a desarrolladores y empresas aprovechar el potencial de la IA de forma más segura y responsable.

El reconocimiento de las alucinaciones de la IA es un paso esencial para impulsar las capacidades de la IA más allá de la imitación de textos humanos. A medida que los sistemas de IA buscan descubrir nuevas fronteras, como la física innovadora, el camino requerirá enfoques innovadores para garantizar la seguridad, la precisión y un despliegue ético de la IA. Las contribuciones de Galileo Labs a este esfuerzo subrayan el compromiso de la industria de ampliar los límites de la IA, manteniendo al mismo tiempo su integridad y fiabilidad.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Juan Palmer

John Murangiri llegó a Cryptopolitan con experiencia en análisis de mercado. John (también conocido como JP) se graduó de la Universidad de Nairobi con una licenciatura en comunicación de masas y estudios de medios. Anteriormente, colaboró con análisis del mercado de criptomonedas enBitcoiny Metacoingraph.

ÍNDICE

1. El auge de las alucinaciones de IA

2. Presentamos el índice de alucinaciones de Galileo Labs

3. Un enfoque matizado para las métricas de las alucinaciones

4. Dimensiones clave que influyen en la propensión a las alucinaciones

5. ChainPoll: una metodología rentable para la detección de alucinaciones

6. Hacia una IA más segura y confiable

Comparte este artículo