Forscher der Technischen Universität Darmstadt und des Hessischen Zentrums für Künstliche Intelligenz haben sich eingehend mit dem komplexen Zusammenhang zwischen Datensätzen und Modellen beim Verständnis risikoreicher Entscheidungen des Menschen auseinandergesetzt.
Ihre in der Fachzeitschrift Nature Human Behaviour veröffentlichten Ergebnisse zeigen, dass Datensätze Verzerrungen aufweisen und die feinen Unterschiede im Entscheidungsverhalten von Teilnehmenden an Online- und Laborexperimenten verdeutlichen. Mithilfe fortschrittlicher maschineller Lernverfahrendentdie Forschenden nicht nur diese Verzerrungen, sondern schlagen auch ein neuartiges Hybridmodell vor, um die durch das erhöhte Entscheidungsrauschen in Online-Datensätzen entstandene Lücke zu schließen.
Das Zusammenspiel zwischen Entscheidungsdatensätzen und ML-Modellen
Das Verständnis des Zusammenspiels zwischen Entscheidungsdatensätzen und Modellen des maschinellen Lernens (ML) ist entscheidend, um die Komplexität menschlicher Entscheidungsprozesse zu entschlüsseln. Die Forschung des deutschen Teams untersucht diese Beziehungmaticanhand von drei verschiedenen Datensätzen: Choice Prediction Competition 2015 (CPC15), Choice Prediction Competition 2018 (CPC18) und Choices13k.
Diese Datensätze repräsentieren ein breites Spektrum an Entscheidungen, die von Teilnehmenden sowohl in kontrollierten Laborumgebungen als auch in groß angelegten Online-Experimenten getroffen wurden. Das Forschungsteam nutzte verschiedene ML-Modelle, darunter classicKI-Methoden und neuronale Netzwerkarchitekturen, und trainierte diese anhand der Datensätze, um Einblicke in die Leistungsschwankungen und Verzerrungen zu gewinnen.
Eine detailliertere Analyse der Studie ergab, dass Modelle, die mit dem Choices13k-Datensatz – einem Indikator für Online-Experimente – trainiert wurden, eine schwache Generalisierungsfähigkeit aufwiesen, wenn sie auf kleinere Labordatensätze (CPC15 und CPC18) angewendet wurden. Ebenso konnten Modelle, die mit CPC15 trainiert wurden, ihre Vorhersagekraft nicht ohne Weiteres auf den Choices13k-Datensatz übertragen, was einematic Verzerrung durch den Datensatz offenbart.
Diese Verzerrung wies auf bemerkenswerte Unterschiede im Entscheidungsverhalten zwischen Teilnehmern an Laborexperimenten und Online-Teilnehmern hin. Diese Ergebnisse unterstreichen die Bedeutung der Erkennung und Behebung von Verzerrungen in Datensätzen, insbesondere bei der Verwendung unterschiedlicher Kontexte und Datenquellen.
Die Verzerrung des Datensatzes aufdecken
Die Aufdeckung von Verzerrungen im Datensatz veranlasst weitere Untersuchungen zu deren Ursachen und Auswirkungen. Die Studie ergab, dass Modelle, die mit dem Choices13k-Datensatz trainiert wurden, eine Zurückhaltung bei der Vorhersage extremer Entscheidungsanteile zeigten, was auf ein abweichendes Entscheidungsmuster bei Online-Teilnehmern im Vergleich zu ihren Labor-Pendants hindeutet.
Um die Ursache dieser Verzerrung zu ermitteln, analysierten die Forscher akribisch die Merkmale von Glücksspielen, die die Unterschiede im Wahlverhalten zwischen den Datensätzen vorhersagten. Mithilfe von Techniken wie linearen Regressionen und SHapley Additive exPlanations (SHAP) quantifizierten sie die Bedeutung jedes einzelnen Merkmals. Überraschenderweise spielten Merkmale aus der Psychologie und der Verhaltensökonomie, wie stochastische Dominanz, Gewinnwahrscheinlichkeit und die Differenz des Erwartungswerts, eine entscheidende Rolle bei der Beeinflussung der Verzerrung.
Diese Merkmale, die sich alle um den Grad der erwarteten höheren Auszahlung bei einer bestimmten Wette im Vergleich zu einer anderen drehen, unterstreichen die Komplexität menschlicher Entscheidungsfindung. Die Studie hob hervor, dass das Entscheidungsverhalten im Choices13k-Datensatz weniger stark von diesen Merkmalen beeinflusst wurde als im CPC15-Datensatz. Dies deutet darauf hin, dass Online-Teilnehmer bei ihren Entscheidungen mehr Ungenauigkeiten oder Gleichgültigkeit zeigten. Dieses differenzierte Verständnis von Verzerrungen in Datensätzen und deren Ursachen bildet die Grundlage für die Entwicklung von Strategien zur Minderung ihrer Auswirkungen und zur Verbesserung von Vorhersagemodellen in verschiedenen Entscheidungskontexten.
Merkmale analysieren und ein Hybridmodell vorschlagen
Mit einem umfassenden Verständnis von Datenverzerrungen und deren Auswirkungen schlugen die Forscher eine neuartige Lösung vor – ein Hybridmodell. Dieses Modell zielte darauf ab, das erhöhte Entscheidungsrauschen in Online-Datensätzen zu reduzieren, indem es ein probabilistisches generatives Modell mit einem auf dem CPC15-Datensatz trainierten neuronalen Netzwerk kombinierte. Das probabilistische generative Modell ging davon aus, dass ein Teil der Teilnehmenden im Online-Experiment zufällige Entscheidungen traf, während die übrigen Teilnehmenden den aus dem Labordatensatz erlernten Entscheidungsmustern folgten.
Die Integration dieses Hybridmodells verbesserte die Vorhersagegenauigkeit deutlich und verringerte die beobachteten Unterschiede zum herkömmlichen, ausschließlich mit dem CPC15-Datensatz trainierten neuronalen Netzwerk. Dieser innovative Ansatz bot nicht nur eine praktische Lösung für das Problem der Datensatzverzerrung, sondern unterstrich auch die Bedeutung der Berücksichtigung der spezifischen Eigenschaften von Online-Datensätzen bei der Entwicklung präziser und robuster Vorhersagemodelle für menschliche Entscheidungen.
Die Studie verdeutlichte die komplexe Beziehung zwischen ML-Modellen und Datensätzen menschlicher Entscheidungen und hob dabei das Vorhandensein und die Auswirkungen von Verzerrungen in den Datensätzen hervor. Sie verdeutlichte die Herausforderungen, die sich aus der alleinigen Verwendung umfangreicher Online-Datensätze zum Verständnis allgemeiner Theorien menschlicher Entscheidungsfindung ergeben.
Die Studie unterstrich die Notwendigkeit eines ausgewogenen Ansatzes, der ML-Techniken, Datenanalyse und theoriegeleitetes Denken kombiniert, um die Komplexität menschlicher Risikoentscheidungen zu erfassen. Da die Forschung neue Wege für zukünftige Untersuchungen eröffnet, stellen sich Fragen: Wie können wir ML-Modelle verfeinern und validieren, um die in Online-Daten inhärente Variabilität und das Rauschen zu berücksichtigen und so ein fundierteres Verständnis menschlicher Entscheidungsfindung in verschiedenen Kontexten und experimentellen Umgebungen zu ermöglichen? Die Suche nach Antworten geht weiter und fordert Forschende auf, theoretische und analytische Rahmenwerke zu erforschen, zu verfeinern und zu integrieren, um die Geheimnisse menschlicher Entscheidungsfindung im zunehmend digitalen Zeitalter zu entschlüsseln.

