報道によると、ChatGPTは健康診断に合格する能力があるが、新たな研究によると、例えば胸痛の患者を入院させる必要がある場合など、深刻な健康評価にChatGPTに頼るのは賢明な判断ではないという。
ChatGPTは賢いが、心の評価には失敗している
PLOS ONE誌に掲載された研究によると、何千人もの胸痛患者を対象とした研究で、ChatGPTは同じ患者に対して一貫性のない心臓リスクレベルを返し、異なる結論を示しました。
ワシントン州立大学エルソン・S・フロイド医学部の研究者であり、この研究の筆頭著者でもあるトーマス・ヘストン博士は次のように述べた。
「ChatGPTの動作は一貫していませんでした。全く同じデータを与えても、ChatGPTは低リスクのスコアを出し、次は中リスクのスコアを出し、時には高リスクのスコアを出すことさえありました。」
出典: WSU .
研究者によると、この問題は、最新バージョンのソフトウェアであるChatGPT-4に組み込まれたランダム性の程度に起因する可能性が高いとのことです。これは、自然言語を模倣するために回答を多様化させるためです。しかし、ヘストン氏は、このレベルのランダム性は医療分野でのユースケースには適しておらず、単一の一貫した回答を要求するため、危険になり得ると述べています。
胸痛は病院の救急治療室でよく聞かれる症状なので、医師は患者の症状の緊急性を素早く評価する必要があります。
「重篤な患者の一部は症状から簡単に特定dentが、リスクの低い患者の方が難しい。特に、外来治療サービスを受けて帰宅させるほどリスクが低いのか、入院させるべきなのかを判断する必要がある場合がそうだ」と述べた。
他のシステムの方が信頼性が高いことが証明されている
ChatGPT のような AI ニューラル ネットワークは、膨大なデータセットを使用して多数のパラメータでトレーニングされており、数十億の変数を数秒で評価できるため、複雑なシナリオをより迅速かつ詳細に理解することができます。
ヘストン博士は、医療専門家は心臓リスク評価に主にHEARTとTIMIという2つのモデルを使用しており、年齢、健康歴、症状など多くの変数を使用し、ChatGPTよりも少ない変数に依存するソフトウェアを好んでいると述べています。
この研究のために、ヘストン博士と、同大学セントルイス校の同僚であるローレンス・ルイス博士は、それぞれランダムにシミュレーションされた1万件の症例からなる3つのデータセットを使用しました。データセットの1つにはハートスケールから5つの変数が含まれ、もう1つにはTIMIから7つの変数が含まれ、3つ目はランダムに選択された44の変数が含まれていました。
最初の2つのデータセットでは、ChatGPTは、TIMIとHEARTのスコアが一定であった場合と比較して、個々のシミュレーションケースにおいて45%から48%の確率で一貫性のないリスク評価を生成しました。しかし、3つ目のデータセットでは、複数回実行したにもかかわらず、ChatGPTは同じケースに対して異なる結果を返しました。
研究結果が不十分であるにもかかわらず、技術の進歩に伴い医療分野におけるGenAIの可能性は拡大すると考えています。彼によると、医療記録をシステムにアップロードすれば、緊急事態が発生した場合、医師はChatGPTに患者に関する最も重要な情報を提供するよう依頼できるとのことです。また、複数の診断候補とそれぞれの根拠を生成させることで、医師が問題を理解するのに役立つでしょう。

