D'après certains rapports, ChatGPT est capable de réussir des examens médicaux, mais selon de nouvelles recherches, il ne serait pas judicieux de s'y fier pour des évaluations de santé importantes, par exemple si un patient souffrant de douleurs thoraciques doit être hospitalisé.
ChatGPT est intelligent mais échoue dans l'évaluation cardiaque
Dans une étude publiée dans la revue PLOS ONE, ChatGPT a abouti à des conclusions différentes en renvoyant des niveaux de risque cardiaque incohérents pour un même patient dans une étude portant sur des milliers de patients souffrant de douleurs thoraciques.
Le Dr Thomas Heston, chercheur au Elson S. Floyd College of Medicine de l'Université d'État de Washington et auteur principal de l'étude, a déclaré :
« ChatGPT ne fonctionnait pas de manière cohérente ; avec les mêmes données, ChatGPT attribuait un score de risque faible, puis un risque intermédiaire la fois suivante, et parfois même un risque élevé. »
Source : WSU .
D'après les chercheurs, le problème est probablement dû au degré d'aléatoire intégré à la version récente du logiciel, ChatGPT-4, car celui-ci lui permet de diversifier ses réponses et d'imiter le langage naturel. Cependant, Heston affirme que ce même niveau d'aléatoire est inadapté aux applications dans le domaine de la santé et peut même s'avérer dangereux, car il exige une réponse unique et cohérente.
Les médecins doivent évaluer rapidement l'urgence de l'état d'un patient, car les douleurs thoraciques sont un motif de consultation quotidien aux urgences hospitalières.
Certains patients gravement malades peuvent être facilement identifiés dent leurs symptômes , mais les cas les plus délicats sont ceux qui présentent un risque plus faible, a déclaré le Dr Heston, notamment lorsqu'il s'agit de déterminer si une personne ne présente pas suffisamment de risques pour être renvoyée chez elle avec des soins ambulatoires ou si elle doit être hospitalisée.
D'autres systèmes se révèlent plus fiables
Un réseau neuronal d'IA comme ChatGPT, entraîné sur un grand nombre de paramètres avec d'énormes ensembles de données, peut évaluer des milliards de variables en quelques secondes, ce qui lui permet de comprendre un scénario complexe plus rapidement et de manière beaucoup plus détaillée.
Le Dr Heston explique que les professionnels de la santé utilisent principalement deux modèles d'évaluation des risques cardiaques appelés HEART et TIMI, et qu'il apprécie les logiciels car ils utilisent un certain nombre de variables, notamment l'âge, les antécédents médicaux et les symptômes, et qu'ils s'appuient sur moins de variables que ChatGPT.
Pour cette étude, le Dr Heston et son collègue, le Dr Lawrence Lewis, du campus de Saint-Louis de la même université, ont utilisé trois ensembles de données de 10 000 cas simulés aléatoirement chacun. Un ensemble comportait cinq variables de l’échelle cardiaque ; un autre, sept variables de l’indice TIMI ; et le troisième, 44 variables sélectionnées aléatoirement.
Pour les deux premiers jeux de données, ChatGPT a produit une évaluation des risques incohérente dans 45 à 48 % des cas simulés, contrairement aux scores constants de TIMI et HEART. En revanche, pour le troisième jeu de données, malgré plusieurs exécutions, ChatGPT a donné des résultats différents pour les mêmes cas.
Le Dr Heston estime que l'intelligence artificielle générale (GenAI) recèle un potentiel considérable dans le domaine de la santé, à mesure que la technologie progresse, malgré les résultats insatisfaisants de l' étude . Selon lui, les dossiers médicaux peuvent être téléchargés dans les systèmes et, en cas d'urgence, les médecins pourraient demander à ChatGPT de leur fournir les informations les plus importantes concernant le patient. On pourrait également lui demander de générer des diagnostics possibles et d'en justifier le raisonnement, ce qui aiderait les médecins à mieux comprendre le problème.

