وفقًا للتقارير، يتمتع برنامج ChatGPT بالقدرة على اجتياز الفحوصات الطبية، ولكن لن يكون من الحكمة الاعتماد عليه في بعض التقييمات الصحية الخطيرة، على سبيل المثال، إذا احتاج مريض يعاني من ألم في الصدر إلى دخول المستشفى، وفقًا لبحث جديد.
برنامج ChatGPT ذكي ولكنه يفشل في تقييم الجوهر
في بحث نُشر في مجلة PLOS ONE، قدم برنامج ChatGPT استنتاجات مختلفة من خلال إرجاع مستويات غير متسقة من مخاطر القلب لنفس المريض في دراسة شملت آلاف المرضى الذين يعانون من آلام في الصدر.
قال الدكتور توماس هيستون، الباحث في كلية إلسون إس. فلويد للطب بجامعة ولاية واشنطن، والذي كان أيضاً المؤلف الرئيسي للدراسة:
"لم يكن برنامج ChatGPT يتصرف بطريقة متسقة؛ فبالنظر إلى نفس البيانات بالضبط، كان ChatGPT يعطي درجة مخاطرة منخفضة، ثم في المرة التالية درجة مخاطرة متوسطة، وفي بعض الأحيان كان يصل إلى حد إعطاء درجة مخاطرة عالية."
المصدر: جامعة ولاية واشنطن .
بحسب الباحثين، يُعزى هذا الإشكال على الأرجح إلى درجة العشوائية المُدمجة في الإصدار الأخير من برنامج ChatGPT-4، إذ تُساعده على تنويع إجاباته لمحاكاة اللغة الطبيعية. لكن هيستون يُشير إلى أن هذه الدرجة من العشوائية لا تُناسب تطبيقات الرعاية الصحية، بل قد تكون خطيرة، لأنها تتطلب إجابة واحدة مُحددة.
يحتاج الأطباء إلى تقييم مدى إلحاح حالة المريض بسرعة، حيث أن آلام الصدر شكوى يومية في غرف الطوارئ بالمستشفيات.
إن بعض المرضى ذوي الحالات الخطيرة للغاية يمكن التعرف dent من خلال أعراضهم ، لكن الحالات الأكثر صعوبة هي تلك التي تكون أقل خطورة، خاصة عندما يحتاجون إلى تحديد ما إذا كان شخص ما خارج نطاق الخطر بما يكفي لإرساله إلى المنزل مع خدمات الرعاية الخارجية أو ما إذا كان ينبغي إدخاله إلى المستشفى.
أثبتت أنظمة أخرى أنها أكثر موثوقية
يمكن لشبكة الذكاء الاصطناعي العصبية مثل ChatGPT، التي يتم تدريبها على عدد كبير من المعلمات باستخدام مجموعات بيانات ضخمة، تقييم مليارات المتغيرات في ثوانٍ، مما يمنحها القدرة على فهم سيناريو معقد بشكل أسرع وبطريقة أكثر تفصيلاً.
يقول الدكتور هيستون إن المتخصصين الطبيين يستخدمون في الغالب نموذجين لتقييم مخاطر القلب يسمى HEART و TIMI، وهو يفضل البرامج لأنها تستخدم عددًا من المتغيرات، بما في ذلك العمر والتاريخ الصحي والأعراض، وتعتمد على عدد أقل من المتغيرات مقارنة بـ ChatGPT.
في هذه الدراسة البحثية، استخدم الدكتور هيستون وزميله الدكتور لورانس لويس، من فرع سانت لويس التابع للجامعة نفسها، ثلاث مجموعات بيانات، كل منها تضم 10000 حالة محاكاة عشوائية. احتوت إحدى مجموعات البيانات على خمسة متغيرات من مقياس القلب؛ واحتوت مجموعة أخرى على سبعة متغيرات من مقياس TIMI؛ أما المجموعة الثالثة فاحتوت على 44 متغيرًا تم اختيارها عشوائيًا.
بالنسبة لمجموعتي البيانات الأوليين، قدم برنامج ChatGPT تقييمًا غير متسق للمخاطر بنسبة تتراوح بين 45% و48% من الحالات المحاكاة الفردية، مقارنةً بدرجة ثابتة لمؤشري TIMI وHEART. أما بالنسبة لمجموعة البيانات الثالثة، فعلى الرغم من تشغيلها عدة مرات، فقد أعطى برنامج ChatGPT نتائج مختلفة لنفس الحالات.
يرى الدكتور هيستون أن هناك إمكانات أكبر للذكاء الاصطناعي العام في مجال الرعاية الصحية مع تطور التكنولوجيا، على الرغم من النتائج غير المرضية للدراسة . ووفقًا له، يمكن تحميل السجلات الطبية إلى الأنظمة، وفي حالة الطوارئ، يمكن للأطباء الاستعانة ببرنامج ChatGPT للحصول على أهم المعلومات عن المريض. كما يمكن أيضًا الاستعانة به لتوليد بعض التشخيصات المحتملة مع شرح أسباب كل منها، مما يساعد الأطباء على فهم المشكلة بشكل أفضل.

