解码数据集偏差——机器学习揭示人类风险选择中的分歧

经过

阿米尔·谢赫

阅读时长：3分钟发布日期：2024年1月19日

达姆施塔特工业大学的研究人员利用机器学习揭示了人类风险选择中的数据集偏差。.
该研究探讨了在线和实验室选择之间的差异，引入了一种混合模型来应对日益增加的决策噪音。.
依赖大规模在线数据集的挑战也随之出现，这促使我们在理解人类决策时，需要在理论和数据分析之间取得谨慎的平衡。.

德国达姆施塔特工业大学和黑森人工智能中心的研究人员深入研究了数据集和模型之间错综复杂的关系，以了解人类的冒险选择。.

他们的研究成果发表在《自然·人类行为》杂志上，揭示了数据集偏差的存在，并阐明了在线实验和实验室实验参与者决策行为的细微差异。研究人员运用先进的机器学习技术，不仅dent这种偏差，还提出了一种新的混合模型，以弥合在线数据集中决策噪声增加所造成的差距。.

决策数据集与机器学习模型之间的相互作用

理解决策数据集和机器学习 (ML) 模型之间的相互作用对于揭开人类决策的复杂性至关重要。德国团队开展的研究matic地考察了这种关系，使用了三个不同的数据集：2015 年选择预测竞赛 (CPC15)、2018 年选择预测竞赛 (CPC18) 和 Choices13k。.

这些数据集涵盖了参与者在受控实验室环境和大规模在线实验中做出的各种选择。研究团队采用了多种机器学习模型，包括 classic人工智能方法和神经网络架构，并利用这些数据集对模型进行训练，以深入了解性能差异和偏差。.

深入研究后发现，基于 Choices13k 数据集（代表在线实验）训练的模型，在应用于规模较小的实验室数据集（CPC15 和 CPC18）时，泛化能力较差。同样，基于 CPC15 训练的模型也无法将其预测能力无缝迁移到 Choices13k 数据集，这表明存在matic 数据集偏差。.

这种偏差表明，参与实验室实验的受试者和参与在线实验的受试者在选择行为方面存在显著差异。这些发现强调了识别和解决数据集偏差的重要性，尤其是在处理不同背景和数据来源时。.

揭示数据集偏差

数据集偏差的发现促使人们进一步探究其根源和影响。该研究发现，基于 Choices13k 数据集训练的模型在预测极端选择比例方面存在不足，这表明在线参与者与实验室参与者相比，其决策模式截然不同。.

为了剖析这种偏差的根源，研究人员细致地分析了赌博中能够预测不同数据集选择行为差异的特征。他们运用线性回归和 SHapley 加性解释 (SHAP) 等技术，量化了每个特征的重要性。令人惊讶的是，来自心理学和行为经济学文献的特征，例如随机优势、获胜概率和期望值差异，在影响这种偏差方面发挥了关键作用。.

这些特征都围绕着一种赌博方式预期收益高于另一种赌博方式的程度展开，凸显了人类决策的复杂性。重要的是，该研究强调，Choices13k 数据集中的选择行为对这些特征的敏感度似乎低于 CPC15 数据集，这表明在线参与者在决策过程中表现出更多的噪声或漠不关心。这种对数据集偏差及其根源的细致理解，为制定策略以减轻其影响并改进不同决策情境下的预测模型奠定了基础。.

分析特征并提出混合模型

在全面理解数据集偏差及其影响的基础上，研究人员提出了一种新颖的解决方案——混合模型。该模型旨在解决在线数据集中观察到的决策噪声增加的问题，它引入了一个概率生成模型，并结合了一个在CPC15数据集上训练的神经网络。该概率生成模型假设在线实验中一部分参与者是在进行随机猜测，而其余参与者则遵循从实验室数据集中学习到的决策模式。.

这种混合模型的整合显著提高了预测精度，并缩小了与仅基于CPC15数据集训练的传统神经网络之间的差异。这种创新方法不仅为数据集偏差问题提供了一个切实可行的解决方案，而且凸显了在开发用于人类决策的准确、稳健的预测模型时，考虑在线数据集独特特征的重要性。.

该研究展示了机器学习模型与人类决策数据集之间错综复杂的关系，并强调了数据集偏差的存在及其影响。研究还指出，仅仅依赖大规模在线数据集来理解人类决策的一般理论存在诸多挑战。

这项研究强调了采用平衡方法的重要性，即结合机器学习技术、数据分析和理论驱动的推理，以应对人类风险选择的复杂性。随着研究为未来的探索开辟道路，一些问题也随之出现：我们如何改进和验证机器学习模型，以应对在线数据中固有的变异性和噪声，从而更深入地理解不同情境和实验环境下的人类决策？对答案的探索仍在继续，这促使研究人员探索、完善和整合理论和分析框架，以揭开日益数字化时代人类决策的奥秘。.

不要只是阅读加密货币新闻，要理解它。订阅我们的新闻简报，完全免费。

分享这篇文章