I en nyligen publicerad studie publicerad i The Annals of Family Medicine utvärderade forskare effekten av Chat Generative Pretrained Transformer (ChatGPT) för att sammanfatta medicinska trac för att hjälpa läkare. Studien syftade till att fastställa kvaliteten, noggrannheten och partiskheten i ChatGPT-genererade sammanfattningar, och ge insikter om dess potential som ett verktyg för att smälta stora mängder medicinsk litteratur mitt i tidsbrister som vårdpersonal möter.
Höga betyg för kvalitet och noggrannhet
Studien använde ChatGPT för att kondensera 140 medicinska trac från 14 olika tidskrifter, vilket minskade innehållet med i genomsnitt 70 %. Trots vissa felaktigheter och hallucinationer som upptäckts i en liten bråkdel av sammanfattningarna, satte läkarna betyg på sammanfattningarna högt för kvalitet och noggrannhet. Resultaten tyder på att ChatGPT har potentialen att hjälpa läkare att effektivt granska medicinsk litteratur och erbjuda kortfattade och korrekta sammanfattningar mitt i den överväldigande mängden information.
Forskare valde ut 10 artiklar från var och en av 14 tidskrifter som täcker olika medicinska ämnen och strukturer. De gav ChatGPT i uppdrag att sammanfatta dessa artiklar och utvärderade de genererade sammanfattningarna för kvalitet, noggrannhet, partiskhet och relevans inom tio medicinska områden. Studien fann att ChatGPT framgångsrikt kondenserade medicinska trac med i genomsnitt 70 %, vilket fick höga betyg från läkargranskare för kvalitet och noggrannhet.
Konsekvenser för vården
Trots de höga betygen dent studien allvarliga felaktigheter och hallucinationer i ett litet antal sammanfattningar. Dessa fel sträckte sig från utelämnade kritiska data till feltolkningar av studiedesign, vilket potentiellt skulle kunna förändra tolkningen av forskningsresultat. ChatGPT:s prestation när det gällde att sammanfatta medicinska trac ansågs dock vara tillförlitlig, med minimal bias observerad.
Även om ChatGPT visade tron anpassning till mänskliga bedömningar på tidskriftsnivå, var dess prestation när det gällde att lokalisera relevansen av enskilda artiklar för specifika medicinska specialiteter mindre imponerande. Denna diskrepans visade på en begränsning i ChatGPT:s förmåga att noggrant dent relevansen av enstaka artiklar inom det bredare sammanhanget av medicinska specialiteter.
Studien ger värdefulla insikter om potentialen hos AI, särskilt ChatGPT, för att hjälpa läkare att effektivt granska medicinsk litteratur. Medan ChatGPT visar löfte när det gäller att sammanfatta medicinska trac med hög kvalitet och noggrannhet, behövs ytterligare forskning för att ta itu med begränsningar och förbättra dess prestanda i specifika medicinska sammanhang.
Framtida forskning kan fokusera på att förfina ChatGPT:s förmåga att känna igen relevansen av enskilda artiklar för specifika medicinska specialiteter. Dessutom kan ansträngningar för att mildra felaktigheter och hallucinationer i de genererade sammanfattningarna ytterligare förbättra användbarheten av AI-verktyg i hälsovårdsmiljöer.