Secondo alcuni rapporti, ChatGPT è in grado di superare gli esami medici, ma non sarebbe una decisione saggia affidarsi a esso per alcune valutazioni sanitarie importanti, ad esempio se un paziente con dolore al petto dovesse essere ricoverato in ospedale, secondo una nuova ricerca.
ChatGPT è intelligente ma fallisce nella valutazione del cuore
In una ricerca pubblicata sulla rivista PLOS ONE, ChatGPT ha fornito conclusioni diverse restituendo livelli di rischio cardiaco incoerenti per lo stesso paziente in uno studio che ha coinvolto migliaia di pazienti con dolore toracico.
Il dottor Thomas Heston, ricercatore presso l'Elson S. Floyd College of Medicine della Washington State University e autore principale della ricerca, ha affermato:
"ChatGPT non si comportava in modo coerente; dati esattamente gli stessi dati, ChatGPT assegnava un punteggio di rischio basso, poi la volta successiva un punteggio di rischio intermedio e occasionalmente arrivava addirittura a un punteggio di rischio alto."
Fonte: WSU .
Secondo i ricercatori, il problema è probabilmente dovuto al grado di casualità integrato nella recente versione del software, ChatGPT-4, che consente di diversificare le risposte per imitare il linguaggio naturale. Heston afferma tuttavia che questo stesso livello di casualità non è adatto per i casi d'uso in ambito sanitario e può essere pericoloso, poiché richiede una risposta unica e coerente.
I medici devono valutare rapidamente l'urgenza delle condizioni di un paziente, poiché i dolori al petto sono un disturbo quotidiano nei pronto soccorso degli ospedali.
Alcuni pazienti molto gravi possono essere facilmente identificati dent loro sintomi , ma quelli più difficili sono quelli che presentano un rischio più basso, ha affermato il dott. Heston, soprattutto quando devono decidere se qualcuno è abbastanza fuori rischio da poter essere dimesso con servizi di assistenza ambulatoriale o se dovrebbe essere ricoverato.
Altri sistemi si dimostrano più affidabili
Una rete neurale AI come ChatGPT, addestrata su un elevato numero di parametri con enormi set di dati, può valutare miliardi di variabili in pochi secondi, il che le consente di comprendere uno scenario complesso in modo più rapido e dettagliato.
Il dott. Heston afferma che i professionisti sanitari utilizzano principalmente due modelli per la valutazione del rischio cardiaco, denominati HEART e TIMI, e apprezza questo software perché utilizza numerose variabili, tra cui età, storia clinica e sintomi, e si basa su meno variabili rispetto a ChatGPT.
Per lo studio di ricerca, il Dott. Heston e il suo collega, il Dott. Lawrence Lewis, del campus di St. Louis della stessa università, hanno utilizzato tre set di dati di 10.000 casi simulati casualmente ciascuno. Un set di dati conteneva cinque variabili della scala cardiaca; un altro includeva sette variabili del TIMI; e il terzo conteneva 44 variabili selezionate casualmente.
Per i primi due set di dati, ChatGPT ha prodotto una valutazione del rischio incoerente nel 45-48% dei casi simulati, rispetto a un punteggio costante di TIMI e HEART. Tuttavia, per il terzo set di dati, nonostante l'esecuzione ripetuta, ChatGPT ha restituito risultati diversi per gli stessi casi.
Il Dott. Heston ritiene che l'intelligenza artificiale generata (GenAI) abbia un potenziale maggiore in ambito sanitario con l'avanzare della tecnologia, nonostante i risultati insoddisfacenti dello studio . Secondo lui, le cartelle cliniche possono essere caricate nei sistemi e, in caso di emergenza, i medici potrebbero chiedere a ChatGPT di fornire le informazioni più importanti sul paziente. Si può anche chiedere al sistema di generare alcune possibili diagnosi e le relative motivazioni, il che aiuterà i medici a individuare il problema.

