ChatGPT kann laut Berichten medizinische Prüfungen bestehen, aber es wäre keine kluge Entscheidung, sich bei wichtigen Gesundheitsbeurteilungen darauf zu verlassen, beispielsweise wenn ein Patient mit Brustschmerzen ins Krankenhaus eingeliefert werden muss, wie neue Forschungsergebnisse zeigen.
ChatGPT ist clever, versagt aber bei der Herzbeurteilung
In einer im Fachjournal PLOS ONE veröffentlichten Studie lieferte ChatGPT unterschiedliche Schlussfolgerungen, indem es in einer Untersuchung mit Tausenden von Patienten mit Brustschmerzen für denselben Patienten uneinheitliche Herzrisikowerte ermittelte.
Dr. Thomas Heston, Forscher am Elson S. Floyd College of Medicine der Washington State University und Hauptautor der Studie, sagte:
„ChatGPT verhielt sich nicht konsistent; bei exakt denselben Daten gab ChatGPT mal ein niedriges Risiko an, mal ein mittleres und gelegentlich sogar ein hohes Risiko.“
Quelle: WSU .
Laut den Forschern liegt das Problem wahrscheinlich an dem hohen Grad an Zufälligkeit, der in die neueste Version der Software ChatGPT-4 integriert ist. Dieser Grad trägt dazu bei, dass die Antworten vielfältiger sind und so die natürliche Sprache nachahmen. Heston merkt jedoch an, dass diese Art von Zufälligkeit für Anwendungsfälle im Gesundheitswesen ungeeignet und sogar gefährlich sein kann, da sie eine einzige, konsistente Antwort erfordert.
Ärzte müssen die Dringlichkeit des Zustands eines Patienten schnell einschätzen können, da Brustschmerzen in den Notaufnahmen der Krankenhäuser zu den alltäglichen Beschwerden gehören.
Einige der sehr schwer erkrankten Patienten lassen sich anhand ihrer Symptome dent , schwieriger ist es jedoch bei denjenigen mit einem geringeren Risiko, sagte Dr. Heston, insbesondere wenn entschieden werden muss, ob jemand kein ausreichendes Risiko aufweist, um mit ambulanter Pflege nach Hause geschickt zu werden, oder ob eine stationäre Aufnahme erforderlich ist.
Andere Systeme erweisen sich als zuverlässiger
Ein KI-Neuronales Netzwerk wie ChatGPT, das mit einer hohen Anzahl von Parametern und riesigen Datensätzen trainiert wird, kann Milliarden von Variablen in Sekundenschnelle auswerten, wodurch es in der Lage ist, ein komplexes Szenario schneller und wesentlich detaillierter zu verstehen.
Dr. Heston sagt, dass Mediziner hauptsächlich zwei Modelle zur Beurteilung des Herzrisikos verwenden, nämlich HEART und TIMI, und dass er Software bevorzugt, da diese eine Reihe von Variablen berücksichtigt, darunter Alter, Krankengeschichte und Symptome, und dass sie auf weniger Variablen angewiesen ist als ChatGPT.
Für die Forschungsstudie verwendeten Dr. Heston und sein Kollege Dr. Lawrence Lewis vom St. Louis Campus derselben Universität drei Datensätze mit jeweils 10.000 zufällig simulierten Fällen. Ein Datensatz enthielt fünf Variablen der Herzskala, ein weiterer sieben Variablen des TIMI-Scores und der dritte 44 zufällig ausgewählte Variablen.
Bei den ersten beiden Datensätzen lieferte ChatGPT in 45 % bis 48 % der Fälle inkonsistente Risikobewertungen für die einzelnen simulierten Fälle im Vergleich zu einem konstanten TIMI- und HEART-Score. Beim dritten Datensatz hingegen lieferte ChatGPT trotz mehrfacher Ausführung für dieselben Fälle unterschiedliche Ergebnisse.
Studienergebnisse überzeugt, dass GenAI im Gesundheitswesen mit fortschreitender Technologie ein großes Potenzial birgt . Seiner Ansicht nach können Patientendaten in die Systeme hochgeladen werden, und im Notfall könnten Ärzte ChatGPT bitten, die wichtigsten Informationen über den Patienten bereitzustellen. Das System kann auch mögliche Diagnosen und deren Begründung generieren, was Ärzten hilft, ein Problem zu erkennen.

