Descifrando el sesgo de los conjuntos de datos: el aprendizaje automático revela brechas en las decisiones humanas de riesgo

Por

Aamir Sheikh

3 minutos de lectura 19 de enero de 2024

Investigadores de la Universidad Técnica de Darmstadt revelan sesgo en los conjuntos de datos en las decisiones humanas de riesgo utilizando aprendizaje automático.
El estudio aborda las diferencias en las opciones en línea y en el laboratorio, introduciendo un modelo híbrido para contrarrestar el aumento del ruido en las decisiones.
Surgen los desafíos de confiar en conjuntos de datos en línea a gran escala, lo que insta a lograr un equilibrio cuidadoso entre la teoría y el análisis de datos para comprender la toma de decisiones humanas.

Investigadores de la Universidad Técnica de Darmstadt y del Centro de Inteligencia Artificial de Hesse, Alemania, han profundizado en la intrincada relación entre conjuntos de datos y modelos para comprender las decisiones humanas arriesgadas.

Sus hallazgos, publicados en la revista Nature Human Behaviour, revelan la presencia de sesgo en los conjuntos de datos, lo que arroja luz sobre las sutiles diferencias en los comportamientos de decisión entre los participantes que participaron en experimentos en línea y en laboratorio. Mediante técnicas avanzadas de aprendizaje automático, los investigadores no solodentel sesgo, sino que también proponen un novedoso modelo híbrido para reducir la brecha creada por el aumento del ruido en las decisiones en los conjuntos de datos en línea.

La interacción entre los conjuntos de datos de decisión y los modelos de aprendizaje automático

Comprender la interacción entre los conjuntos de datos de decisión y los modelos de aprendizaje automático (AA) es crucial para desentrañar las complejidades de la toma de decisiones humana. La investigación realizada por el equipo alemán examinamaticesta relación utilizando tres conjuntos de datos distintos: Choice Prediction Competition 2015 (CPC15), Choice Prediction Competition 2018 (CPC18) y Choices13k.

Estos conjuntos de datos representan un espectro de decisiones tomadas por los participantes, tanto en entornos de laboratorio controlados como en experimentos en línea a gran escala. El equipo de investigación empleó diversos modelos de aprendizaje automático (ML), incluyendo métodos classicde IA y arquitecturas de redes neuronales, y los entrenó con estos conjuntos de datos para comprender mejor las variaciones y sesgos en el rendimiento.

Profundizando, el estudio reveló que los modelos entrenados con el conjunto de datos Choices13k, indicativo de experimentos en línea, mostraron una generalización deficiente al aplicarse a conjuntos de datos de laboratorio más pequeños (CPC15 y CPC18). Asimismo, los modelos entrenados con CPC15 no transfirieron su capacidad predictiva al conjunto de datos Choices13k de forma fluida, lo que revela un sesgomatic del conjunto de datos.

Este sesgo reveló diferencias notables en los comportamientos de elección entre los participantes que participaron en experimentos de laboratorio y quienes participaron en línea. Estos hallazgos subrayan la importancia de reconocer y abordar el sesgo de los conjuntos de datos, especialmente al tratar con diversos contextos y fuentes de datos.

Desentrañar el sesgo del conjunto de datos

La revelación del sesgo del conjunto de datos motiva una mayor investigación sobre sus raíces e implicaciones. El estudio reveló que los modelos entrenados con el conjunto de datos Choices13k mostraron reticencia a predecir proporciones de elección extremas, lo que indica un patrón distintivo de toma de decisiones en los participantes en línea en comparación con sus homólogos de laboratorio.

Para analizar el origen de este sesgo, los investigadores analizaron meticulosamente las características de las apuestas que predecían la diferencia en el comportamiento de elección entre los conjuntos de datos. Mediante técnicas como regresiones lineales y explicaciones aditivas de SHapley (SHAP), cuantificaron la importancia de cada característica. Sorprendentemente, características de la literatura sobre psicología y economía del comportamiento, como la dominancia estocástica, la probabilidad de ganar y la diferencia en el valor esperado, desempeñaron un papel fundamental en la influencia del sesgo.

Estas características, todas ellas relacionadas con el grado en que se esperaba que una apuesta generara una mayor ganancia en comparación con otra, subrayaron la complejidad de la toma de decisiones humana. Cabe destacar que el estudio destacó que el comportamiento de elección en el conjunto de datos Choices13k parecía menos sensible a estas características que en el conjunto de datos CPC15, lo que sugiere que los participantes en línea mostraron mayor ruido o indiferencia en su toma de decisiones. Esta comprensión matizada del sesgo de los conjuntos de datos y sus causas sienta las bases para el desarrollo de estrategias para mitigar su impacto y refinar los modelos predictivos en diversos contextos de toma de decisiones.

Análisis de características y propuesta de un modelo híbrido

Con una comprensión integral del sesgo de los conjuntos de datos y sus implicaciones, los investigadores propusieron una solución novedosa: un modelo híbrido. Este modelo buscaba abordar el aumento del ruido de decisión observado en los conjuntos de datos en línea, introduciendo un modelo generativo probabilístico junto con una red neuronal entrenada con el conjunto de datos CPC15. El modelo generativo probabilístico suponía que una parte de los participantes del experimento en línea realizaba conjeturas aleatorias, mientras que el resto seguía los patrones de decisión aprendidos del conjunto de datos de laboratorio.

La integración de este modelo híbrido mejoró significativamente la precisión de la predicción y redujo las diferencias observadas con la red neuronal tradicional entrenada únicamente con el conjunto de datos CPC15. Este enfoque innovador no solo proporcionó una solución práctica al problema del sesgo del conjunto de datos, sino que también destacó la importancia de considerar las características únicas de los conjuntos de datos en línea para desarrollar modelos predictivos precisos y robustos para la toma de decisiones humanas.

La investigación mostró la intrincada relación entre los modelos de aprendizaje automático y los conjuntos de datos de decisiones humanas, destacando la presencia y el impacto del sesgo en los conjuntos de datos. El estudio destacó los desafíos que plantea depender exclusivamente de conjuntos de datos en línea a gran escala para comprender las teorías generales de la toma de decisiones humanas.

Subrayó la necesidad de un enfoque equilibrado que combine técnicas de aprendizaje automático (ML), análisis de datos y razonamiento teórico para abordar las complejidades de las decisiones humanas de riesgo. A medida que la investigación abre nuevas vías para la exploración futura, surgen preguntas: ¿Cómo podemos refinar y validar los modelos de ML para tener en cuenta la variabilidad y el ruido inherentes a los datos en línea, allanando el camino para una comprensión más sólida de la toma de decisiones humanas en diferentes contextos y entornos experimentales? La búsqueda de respuestas continúa, lo que insta a los investigadores a explorar, refinar e integrar marcos teóricos y analíticos para desentrañar los misterios de la toma de decisiones humanas en una era cada vez más digital.

Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Aamir Sheikh

Aamir es periodista especializado en tecnología con casi seis años de experiencia en los sectores de criptomonedas y tecnología. Se graduó de la Universidad MAJ con un MBA en Finanzas y Marketing. Actualmente trabaja en Cryptopolitan, donde informa sobre las últimas novedades en los mercados de criptomonedas y realiza predicciones de precios.

ÍNDICE

1. La interacción entre los conjuntos de datos de decisión y los modelos de aprendizaje automático

2. Desentrañar el sesgo del conjunto de datos

3. Análisis de características y propuesta de un modelo híbrido

Comparte este artículo