Исследователи из Технического университета Дармштадта и Гессенского центра искусственного интеллекта (Германия) изучили сложную взаимосвязь между наборами данных и моделями для понимания рискованного выбора человека.
Их выводы, опубликованные в журнале Nature Human Behaviour, выявляют наличие смещения в наборах данных, проливая свет на тонкие различия в поведении участников онлайн- и лабораторных экспериментов при принятии решений. Используя передовые методы машинного обучения, исследователи не толькоdentсмещение, но и предлагают новую гибридную модель для устранения пробелов, вызванных повышенным уровнем шума в онлайн-наборах данных.
Взаимодействие между наборами данных решений и моделями машинного обучения
Понимание взаимодействия между наборами данных для принятия решений и моделями машинного обучения (МО) имеет решающее значение для понимания сложностей принятия решений человеком. Исследование, проведённое немецкой группой,maticизучает эту взаимосвязь, используя три различных набора данных: Choice Prediction Competition 2015 (CPC15), Choice Prediction Competition 2018 (CPC18) и Choices13k.
Эти наборы данных представляют собой спектр решений, принятых участниками как в контролируемых лабораторных условиях, так и в масштабных онлайн-экспериментах. Исследовательская группа использовала различные модели машинного обучения, включая classicметоды искусственного интеллекта и архитектуры нейронных сетей, обучая их на этих наборах данных, чтобы получить представление о вариациях производительности и смещениях.
Более подробное исследование показало, что модели, обученные на наборе данных Choices13k, что свидетельствует об онлайн-экспериментах, продемонстрировали низкую степень обобщения при применении к небольшим лабораторным наборам данных (CPC15 и CPC18). Аналогичным образом, модели, обученные на CPC15, не смогли плавно перенести свою предсказательную силу на набор данных Choices13k, что свидетельствует оmatic смещении набора данных.
Это смещение указало на заметные различия в поведении участников, участвовавших в лабораторных экспериментах, и участников онлайн-исследований. Эти результаты подчёркивают важность распознавания и устранения смещения набора данных, особенно при работе с различными контекстами и источниками данных.
Раскрытие смещения набора данных
Выявление смещения набора данных побуждает к дальнейшему изучению его причин и последствий. Исследование показало, что модели, обученные на наборе данных Choices13k, демонстрировали нежелание предсказывать экстремальные пропорции выбора, что указывает на особый паттерн принятия решений у онлайн-участников по сравнению с их лабораторными аналогами.
Чтобы выявить источник этого смещения, исследователи тщательно проанализировали характеристики азартных игр, предсказывающие разницу в поведении при выборе между наборами данных. Используя такие методы, как линейная регрессия и аддитивные объяснения Шепли (SHAP), они количественно оценили важность каждой характеристики. Удивительно, но характеристики из литературы по психологии и поведенческой экономике, такие как стохастическое доминирование, вероятность выигрыша и разница в ожидаемой ценности, сыграли ключевую роль в формировании смещения.
Эти особенности, связанные со степенью ожидаемого выигрыша от одной азартной игры по сравнению с другой, подчёркивают сложность процесса принятия решений человеком. Важно отметить, что исследование показало, что выбор в наборе данных Choices13k оказался менее чувствительным к этим особенностям, чем в наборе данных CPC15, что свидетельствует о том, что онлайн-участники демонстрировали больше шума или безразличия при принятии решений. Это тонкое понимание смещения набора данных и его причин создаёт основу для разработки стратегий, направленных на снижение его влияния и совершенствование прогностических моделей в различных контекстах принятия решений.
Анализ особенностей и предложение гибридной модели
Обладая глубоким пониманием смещения набора данных и его последствий, исследователи предложили новое решение – гибридную модель. Эта модель была направлена на устранение повышенного шума решений, наблюдаемого в онлайн-наборах данных, используя вероятностную генеративную модель и нейронную сеть, обученную на наборе данных CPC15. Вероятностная генеративная модель предполагала, что часть участников онлайн-эксперимента делала случайные предположения, в то время как остальные участники следовали шаблонам решений, полученным из лабораторного набора данных.
Интеграция этой гибридной модели значительно повысила точность прогнозов и сократила наблюдаемые различия с традиционной нейронной сетью, обученной исключительно на наборе данных CPC15. Этот инновационный подход не только обеспечил практическое решение проблемы смещения набора данных, но и подчеркнул важность учета уникальных характеристик онлайн-наборов данных при разработке точных и надежных прогностических моделей для принятия решений человеком.
Исследование продемонстрировало сложную взаимосвязь между моделями машинного обучения и наборами данных, используемыми для принятия решений человеком, подчеркнув наличие и влияние смещения данных. Исследование выявило проблемы, возникающие при использовании исключительно больших онлайн-наборов данных для понимания общих теорий принятия решений человеком.
В нём подчёркивается необходимость сбалансированного подхода, сочетающего методы машинного обучения, анализ данных и теоретически обоснованное мышление для понимания сложностей принятия человеком рискованных решений. По мере того, как исследование открывает возможности для будущих исследований, возникают вопросы: как можно усовершенствовать и проверить модели машинного обучения, чтобы учесть изменчивость и шум, присущие онлайн-данным, прокладывая путь к более глубокому пониманию процесса принятия решений человеком в различных контекстах и экспериментальных условиях? Поиск ответов продолжается, побуждая исследователей изучать, совершенствовать и интегрировать теоретические и аналитические подходы, чтобы раскрыть тайны принятия решений человеком в эпоху всё более цифровых технологий.

