据报道,ChatGPT 有能力通过医学考试,但一项新的研究表明,依赖它进行一些重要的健康评估并非明智之举,例如,如果胸痛患者需要住院治疗。.
ChatGPT 很聪明,但在情感评估方面却失败了。
在发表于 PLOS ONE 期刊的一项研究中,ChatGPT 对同一名患者得出了不同的结论,该研究涉及数千名胸痛患者,但结果却不一致,心脏风险水平也不一致。.
华盛顿州立大学埃尔森·S·弗洛伊德医学院的研究员托马斯·赫斯顿博士(同时也是该研究的主要作者)表示:
“ChatGPT 的行为并不一致;对于完全相同的数据,ChatGPT 有时会给出低风险评分,有时又会给出中等风险评分,偶尔还会给出高风险评分。”
来源:华盛顿州立大学。
研究人员认为,问题可能出在最新版本的软件 ChatGPT-4 中内置的随机性,因为这种随机性有助于软件生成多样化的答案,从而更好地模仿自然语言。但 Heston 指出,这种程度的随机性并不适用于医疗保健领域的应用,而且可能存在风险,因为医疗保健领域需要的是单一且一致的答案。.
医生需要迅速评估患者病情的紧急程度,因为胸痛是医院急诊室每天都会遇到的病症。.
有些病情非常严重的患者可以通过他们的症状dent,但更棘手的是那些风险较低的患者,尤其是在需要决定某人是否已经脱离风险到可以接受门诊护理服务回家,还是应该住院治疗时。
其他系统被证明更可靠。
像 ChatGPT 这样的 AI 神经网络,经过大量参数和庞大数据集的训练,可以在几秒钟内评估数十亿个变量,使其能够更快、更详细地理解复杂的场景。.
Heston 博士表示,医疗专业人员主要使用两种心脏风险评估模型,即 HEART 和 TIMI,他喜欢软件,因为它们使用了许多变量,包括年龄、健康史和症状,而且它们依赖的变量比 ChatGPT 少。.
在这项研究中,赫斯顿博士和他的同事,来自同一所大学圣路易斯分校的劳伦斯·刘易斯博士,使用了三个数据集,每个数据集包含10000个随机模拟的病例。一个数据集包含来自心脏评分系统的五个变量;另一个数据集包含来自TIMI评分系统的七个变量;第三个数据集包含44个随机选择的变量。.
对于前两个数据集,ChatGPT 在模拟病例的风险评估中,有 45% 到 48% 的时间结果与 TIMI 和 HEART 的恒定评分不一致。但对于第三个数据集,尽管多次运行,ChatGPT 对同一病例却给出了不同的结果。.
研究的结果并不尽如人意,但赫斯顿博士认为,随着技术的进步,基因人工智能在医疗保健领域拥有更大的潜力。他表示,医疗记录可以上传到系统中,一旦发生紧急情况,医生可以请求 ChatGPT 提供患者的关键信息。此外,还可以让 ChatGPT 生成一些可能的诊断结果以及每种诊断的理由,这将有助于医生找到问题的症结所在。

