Расшифровка предвзятости набора данных – машинное обучение выявляет расхождения в рискованных решениях человека

Аамир Шейх

3 минуты чтения, 19 января 2024 г.

Исследователи из Технического университета Дармштадта с помощью машинного обучения выявили смещение наборов данных при принятии рискованных решений человеком.
Исследование рассматривает различия в выборе между онлайн- и лабораторными вариантами обучения, предлагая гибридную модель для противодействия возросшему шуму в решениях.
Возникают проблемы, связанные с использованием крупномасштабных онлайн-наборов данных, что требует тщательного баланса между теорией и анализом данных для понимания процесса принятия решений человеком.

Исследователи из Технического университета Дармштадта и Гессенского центра искусственного интеллекта (Германия) изучили сложную взаимосвязь между наборами данных и моделями для понимания рискованного выбора человека.

Их выводы, опубликованные в журнале Nature Human Behaviour, выявляют наличие смещения в наборах данных, проливая свет на тонкие различия в поведении участников онлайн- и лабораторных экспериментов при принятии решений. Используя передовые методы машинного обучения, исследователи не толькоdentсмещение, но и предлагают новую гибридную модель для устранения пробелов, вызванных повышенным уровнем шума в онлайн-наборах данных.

Взаимодействие между наборами данных решений и моделями машинного обучения

Понимание взаимодействия между наборами данных для принятия решений и моделями машинного обучения (МО) имеет решающее значение для понимания сложностей принятия решений человеком. Исследование, проведённое немецкой группой,maticизучает эту взаимосвязь, используя три различных набора данных: Choice Prediction Competition 2015 (CPC15), Choice Prediction Competition 2018 (CPC18) и Choices13k.

Эти наборы данных представляют собой спектр решений, принятых участниками как в контролируемых лабораторных условиях, так и в масштабных онлайн-экспериментах. Исследовательская группа использовала различные модели машинного обучения, включая classicметоды искусственного интеллекта и архитектуры нейронных сетей, обучая их на этих наборах данных, чтобы получить представление о вариациях производительности и смещениях.

Более подробное исследование показало, что модели, обученные на наборе данных Choices13k, что свидетельствует об онлайн-экспериментах, продемонстрировали низкую степень обобщения при применении к небольшим лабораторным наборам данных (CPC15 и CPC18). Аналогичным образом, модели, обученные на CPC15, не смогли плавно перенести свою предсказательную силу на набор данных Choices13k, что свидетельствует оmatic смещении набора данных.

Это смещение указало на заметные различия в поведении участников, участвовавших в лабораторных экспериментах, и участников онлайн-исследований. Эти результаты подчёркивают важность распознавания и устранения смещения набора данных, особенно при работе с различными контекстами и источниками данных.

Раскрытие смещения набора данных

Выявление смещения набора данных побуждает к дальнейшему изучению его причин и последствий. Исследование показало, что модели, обученные на наборе данных Choices13k, демонстрировали нежелание предсказывать экстремальные пропорции выбора, что указывает на особый паттерн принятия решений у онлайн-участников по сравнению с их лабораторными аналогами.

Чтобы выявить источник этого смещения, исследователи тщательно проанализировали характеристики азартных игр, предсказывающие разницу в поведении при выборе между наборами данных. Используя такие методы, как линейная регрессия и аддитивные объяснения Шепли (SHAP), они количественно оценили важность каждой характеристики. Удивительно, но характеристики из литературы по психологии и поведенческой экономике, такие как стохастическое доминирование, вероятность выигрыша и разница в ожидаемой ценности, сыграли ключевую роль в формировании смещения.

Эти особенности, связанные со степенью ожидаемого выигрыша от одной азартной игры по сравнению с другой, подчёркивают сложность процесса принятия решений человеком. Важно отметить, что исследование показало, что выбор в наборе данных Choices13k оказался менее чувствительным к этим особенностям, чем в наборе данных CPC15, что свидетельствует о том, что онлайн-участники демонстрировали больше шума или безразличия при принятии решений. Это тонкое понимание смещения набора данных и его причин создаёт основу для разработки стратегий, направленных на снижение его влияния и совершенствование прогностических моделей в различных контекстах принятия решений.

Анализ особенностей и предложение гибридной модели

Обладая глубоким пониманием смещения набора данных и его последствий, исследователи предложили новое решение – гибридную модель. Эта модель была направлена на устранение повышенного шума решений, наблюдаемого в онлайн-наборах данных, используя вероятностную генеративную модель и нейронную сеть, обученную на наборе данных CPC15. Вероятностная генеративная модель предполагала, что часть участников онлайн-эксперимента делала случайные предположения, в то время как остальные участники следовали шаблонам решений, полученным из лабораторного набора данных.

Интеграция этой гибридной модели значительно повысила точность прогнозов и сократила наблюдаемые различия с традиционной нейронной сетью, обученной исключительно на наборе данных CPC15. Этот инновационный подход не только обеспечил практическое решение проблемы смещения набора данных, но и подчеркнул важность учета уникальных характеристик онлайн-наборов данных при разработке точных и надежных прогностических моделей для принятия решений человеком.

Исследование продемонстрировало сложную взаимосвязь между моделями машинного обучения и наборами данных, используемыми для принятия решений человеком, подчеркнув наличие и влияние смещения данных. Исследование выявило проблемы, возникающие при использовании исключительно больших онлайн-наборов данных для понимания общих теорий принятия решений человеком.

В нём подчёркивается необходимость сбалансированного подхода, сочетающего методы машинного обучения, анализ данных и теоретически обоснованное мышление для понимания сложностей принятия человеком рискованных решений. По мере того, как исследование открывает возможности для будущих исследований, возникают вопросы: как можно усовершенствовать и проверить модели машинного обучения, чтобы учесть изменчивость и шум, присущие онлайн-данным, прокладывая путь к более глубокому пониманию процесса принятия решений человеком в различных контекстах и экспериментальных условиях? Поиск ответов продолжается, побуждая исследователей изучать, совершенствовать и интегрировать теоретические и аналитические подходы, чтобы раскрыть тайны принятия решений человеком в эпоху всё более цифровых технологий.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Аамир Шейх

Аамир — технологический журналист с почти шестилетним опытом работы в крипто- и технологической индустриях. Он окончил университет MAJ со степенью MBA в области финансов и маркетинга. Сейчас он работает в Cryptopolitan, где освещает последние события на криптовалютных рынках и прогнозирует цены.

ОГЛАВЛЕНИЕ

1. Взаимодействие между наборами данных решений и моделями машинного обучения

2. Раскрытие смещения набора данных

3. Анализ особенностей и предложение гибридной модели

Поделитесь этой статьей