Des chercheurs de l'Université technique de Darmstadt et du Centre hessois pour l'intelligence artificielle, en Allemagne, ont étudié en profondeur la relation complexe entre les ensembles de données et les modèles pour comprendre les choix risqués des humains.
Leurs résultats, publiés dans la revue Nature Human Behaviour, mettent en évidence un biais dans les ensembles de données, révélant des différences subtiles dans les comportements décisionnels des participants aux expériences en ligne et en laboratoire. Grâce à des techniques d'apprentissage automatique avancées, les chercheurs ont non seulementdentce biais, mais ont également proposé un nouveau modèle hybride pour pallier l'écart engendré par le bruit décisionnel accru dans les ensembles de données en ligne.
L'interaction entre les ensembles de données de décision et les modèles d'apprentissage automatique
Comprendre l'interaction entre les ensembles de données décisionnelles et les modèles d'apprentissage automatique est crucial pour décrypter la complexité de la prise de décision humaine. Les recherches menées par l'équipe allemande examinentmaticcette relation, en utilisant trois ensembles de données distincts : Choice Prediction Competition 2015 (CPC15), Choice Prediction Competition 2018 (CPC18) et Choices13k.
Ces ensembles de données représentent un éventail de choix effectués par les participants, tant dans des environnements de laboratoire contrôlés que lors d'expériences en ligne à grande échelle. L'équipe de recherche a utilisé divers modèles d'apprentissage automatique, notamment des méthodes d'intelligence artificielle classicet des architectures de réseaux neuronaux, en les entraînant sur ces ensembles de données afin de mieux comprendre les variations de performance et les biais.
En approfondissant l'analyse, l'étude a révélé que les modèles entraînés sur l'ensemble de données Choices13k, représentatif des expériences en ligne, présentaient une faible capacité de généralisation lorsqu'ils étaient appliqués à des ensembles de données de laboratoire plus petits (CPC15 et CPC18). De même, les modèles entraînés sur CPC15 n'ont pas transféré sans difficulté leur pouvoir prédictif à l'ensemble de données Choices13k, ce qui a mis en évidence un biaismatic lié à l'ensemble de données.
Ce biais a mis en évidence des différences notables dans les choix des participants entre ceux qui prenaient part à des expériences en laboratoire et ceux qui participaient en ligne. Ces résultats soulignent l'importance de reconnaître et de corriger les biais liés aux ensembles de données, notamment lorsqu'il s'agit de contextes et de sources de données diversifiés.
Dévoiler les biais des ensembles de données
La mise en évidence d'un biais dans les données incite à approfondir l'étude de ses causes et de ses implications. L'étude a révélé que les modèles entraînés sur l'ensemble de données Choices13k avaient tendance à réticents à prédire les proportions de choix extrêmes, ce qui indique un mode de prise de décision distinct chez les participants en ligne par rapport à ceux en laboratoire.
Pour identifier l'origine de ce biais, les chercheurs ont analysé minutieusement les caractéristiques des jeux de hasard qui permettaient de prédire les différences de comportement observées entre les ensembles de données. À l'aide de techniques telles que les régressions linéaires et l'analyse additive de Shapley (SHAP), ils ont quantifié l'importance de chaque caractéristique. De façon surprenante, des caractéristiques issues de la psychologie et de l'économie comportementale, comme la dominance stochastique, la probabilité de gain et la différence d'espérance mathématique, ont joué un rôle déterminant dans l'apparition de ce biais.
Ces caractéristiques, toutes liées à la probabilité qu'un pari soit plus rentable qu'un autre, ont mis en évidence la complexité du processus décisionnel humain. L'étude a notamment souligné que les choix observés dans l'ensemble de données Choices13k semblaient moins sensibles à ces caractéristiques que dans l'ensemble CPC15, suggérant que les participants en ligne ont fait preuve de plus de confusion ou d'indifférence dans leurs décisions. Cette compréhension nuancée des biais liés aux ensembles de données et de leurs origines ouvre la voie à l'élaboration de stratégies visant à en atténuer l'impact et à affiner les modèles prédictifs dans divers contextes décisionnels.
Analyse des caractéristiques et proposition d'un modèle hybride
Grâce à une compréhension approfondie des biais liés aux ensembles de données et de leurs implications, les chercheurs ont proposé une solution novatrice : un modèle hybride. Ce modèle visait à atténuer le bruit décisionnel accru observé dans les ensembles de données en ligne, en introduisant un modèle génératif probabiliste associé à un réseau neuronal entraîné sur l’ensemble de données CPC15. Le modèle génératif probabiliste supposait qu’une partie des participants à l’expérience en ligne effectuait des choix aléatoires, tandis que les autres suivaient les schémas de décision appris à partir de l’ensemble de données de laboratoire.
L'intégration de ce modèle hybride a considérablement amélioré la précision des prédictions et réduit les écarts observés avec le réseau neuronal traditionnel entraîné uniquement sur l'ensemble de données CPC15. Cette approche novatrice a non seulement apporté une solution pratique au problème du biais lié aux données, mais a également souligné l'importance de prendre en compte les caractéristiques uniques des ensembles de données en ligne pour développer des modèles prédictifs précis et robustes destinés à la prise de décision humaine.
Cette recherche a mis en lumière la relation complexe entre les modèles d'apprentissage automatique et les ensembles de données sur la prise de décision humaine, soulignant la présence et l'impact des biais dans ces ensembles de données. L'étude a également mis en évidence les difficultés liées au recours exclusif à de vastes ensembles de données en ligne pour comprendre les théories générales de la prise de décision humaine.
Cette étude a souligné la nécessité d'une approche équilibrée, combinant techniques d'apprentissage automatique, analyse de données et raisonnement théorique pour appréhender la complexité des choix humains face au risque. Alors que la recherche ouvre de nouvelles perspectives, des questions émergent : comment affiner et valider les modèles d'apprentissage automatique pour tenir compte de la variabilité et du bruit inhérents aux données en ligne, et ainsi parvenir à une compréhension plus fine de la prise de décision humaine dans différents contextes et environnements expérimentaux ? La quête de réponses se poursuit, incitant les chercheurs à explorer, affiner et intégrer des cadres théoriques et analytiques pour percer les mystères de la prise de décision humaine à l'ère du numérique.

