„ChatGPT“ lenkia gydytojus praktikantus vertindama sudėtingas vaikų kvėpavimo takų ligas

2024.09.09 2:08

Europos kvėpavimo takų draugijos (ERS) kongrese Vienoje (Austrija) pristatytame tyrime pokalbių robotas „ChatGPT“ geriau nei gydytojai praktikantai įvertino sudėtingus kvėpavimo takų ligų atvejus tokiose srityse kaip cistinė fibrozė, astma ir krūtinės ląstos infekcijos.

Tyrimas taip pat parodė, kad „Google“ pokalbių robotas „Bard“ tam tikrais aspektais veikė geriau nei stažuotojai, o „Microsoft“ pokalbių robotas „Bing“ – taip pat gerai.

Tyrimas rodo, kad šie dideli kalbų modeliai (LLM) galėtų būti naudojami siekiant padėti gydytojams stažuotojams, slaugytojams ir bendrosios praktikos gydytojams, kad jie greičiau skirstų pacientus ir sumažintų spaudimą sveikatos priežiūros paslaugoms.

Tyrimą pristatė dr. Manjithas Narayananas, vaikų pulmonologijos konsultantas Karališkojoje vaikų ir jaunimo ligoninėje, Edinburgas ir garbės vyresnysis klinikinis dėstytojas Edinburgo universitete, JK. Jis sakė: „Per pastaruosius pusantrų metų išpopuliarėjo dideli kalbų modeliai, tokie kaip ChatGPT, nes jie gali iš pažiūros suprasti natūralią kalbą ir pateikti atsakymus, kurie gali tinkamai imituoti į žmogų panašų pokalbį. Šios priemonės turi keletą galimų pritaikymų medicinoje. Mano motyvacija atlikti šį tyrimą buvo įvertinti, kaip LLM gali padėti gydytojams realiame gyvenime.

Norėdami tai ištirti, daktaras Narayananas naudojo klinikinius scenarijus, kurie dažnai pasitaiko vaikų kvėpavimo takų medicinoje. Scenarijus pateikė šeši kiti vaikų kvėpavimo takų medicinos ekspertai ir apėmė tokias temas kaip cistinė fibrozė, astma, miego sutrikimas, dusulys ir krūtinės infekcijos. Visi jie buvo scenarijai, kai nėra akivaizdžios diagnozės ir nėra paskelbtų įrodymų, gairių ar ekspertų sutarimo, rodančio konkrečią diagnozę ar planą.

Dešimčiai gydytojų stažuotojų, turinčių mažiau nei keturis mėnesius klinikinės pediatrijos patirties, buvo skirta valanda, per kurią jie galėjo naudotis internetu, bet ne jokiais pokalbių robotais, kad išspręstų kiekvieną scenarijų su aprašomuoju 200–400 žodžių atsakymu. Kiekvienas scenarijus taip pat buvo pristatytas trims pokalbių robotams.

Visus atsakymus įvertino šeši vaikų kvėpavimo ekspertai dėl teisingumo, išsamumo, naudingumo, patikimumo ir nuoseklumo. Jų taip pat buvo paprašyta pasakyti, ar, jų nuomone, kiekvienas atsakymas buvo sukurtas žmogaus ar pokalbių roboto, ir kiekvienam atsakymui įvertinti bendrą balą iš devynių.

„ChatGPT 3.5“ versijos pateikti sprendimai vidutiniškai surinko septynis balus iš devynių ir buvo manoma, kad jie yra panašesni į žmones nei atsakymai iš kitų pokalbių robotų. Bardas vidutiniškai surinko šešis balus iš devynių ir buvo įvertintas kaip „nuoseklesnis“ nei gydytojai praktikantai, tačiau kitais atžvilgiais jis nebuvo geresnis ar blogesnis nei gydytojai praktikantai. Bingas surinko vidutiniškai keturis balus iš devynių – tiek pat, kiek gydytojai praktikantai apskritai. Ekspertai patikimai nustatė, kad Bing ir Bard atsakymai nėra žmogiški.

Dr. Narayanan sakė: „Mūsų žiniomis, mūsų tyrimas yra pirmasis, kurio tikslas yra išbandyti LLM lyginant su gydytojais praktikantais situacijose, kurios atspindi realią klinikinę praktiką. Tai padarėme suteikdami gydytojams stažuotojams visišką prieigą prie interneto išteklių. , kaip ir realiame gyvenime. Tai nukreipia dėmesį nuo atminties tikrinimo, nes šis tyrimas mums parodo dar vieną būdą, kaip galėtume naudoti LLM ir kaip artimi esame įprastiems. dienos klinikinis pritaikymas.

„Mes tiesiogiai neišbandėme, kaip LLM dirbtų atlikdami pacientus nukreiptus vaidmenis. Tačiau juo galėtų naudotis slaugytojai, gydytojai stažuotojai ir pirminės sveikatos priežiūros gydytojai, kurie dažnai pirmieji apžiūri pacientą.”

Tyrėjai nerado jokių akivaizdžių „haliucinacijų“ (atrodo, išgalvota informacija) atvejų nė su vienu iš trijų LLM.

„Nors savo tyrime nematėme nė vieno LLM sukeltų haliucinacijų atvejo, turime žinoti apie šią galimybę ir imtis priemonių jai sumažinti“, – pridūrė daktaras Narayananas. Retkarčiais Bingas, Bardas ir gydytojai stažuotojai pateikdavo atsakymus, kurie buvo įvertinti kaip nesusiję su kontekstu.

Dr. Narayanan ir jo kolegos dabar planuoja išbandyti pokalbių robotus su vyresniais gydytojais ir pažvelgti į naujesnius ir pažangesnius LLM.

Hilary Pinnock yra ERS švietimo tarybos pirmininkė ir pirminės kvėpavimo takų medicinos profesorė Edinburgo universitete, JK, ir nedalyvavo tyrime. Ji sako: „Tai žavus tyrimas. Tai džiugina, bet galbūt ir šiek tiek baisu pamatyti, kaip plačiai prieinamas AI įrankis, pvz., ChatGPT, gali padėti išspręsti sudėtingus vaikų kvėpavimo takų ligų atvejus. Tai tikrai rodo kelią į drąsus naujas AI palaikomos priežiūros pasaulis.

„Tačiau, kaip pažymi mokslininkai, prieš pradėdami naudoti dirbtinį intelektą įprastoje klinikinėje praktikoje, turime būti tikri, kad jis nesudarys klaidų nei „haliucinuodamas“ suklastotą informaciją, nei dėl to, kad jis buvo apmokytas naudoti duomenis, kurie nėra teisingi. Kaip parodė mokslininkai, dirbtinis intelektas yra naujo darbo būdo pažadas, tačiau mums reikia išsamių klinikinio tikslumo ir saugos bandymų, pragmatiško organizacijos efektyvumo įvertinimo ir visuomeninių pasekmių tyrimo. ši technologija įprastoje priežiūroje“.

Pateikė Europos kvėpavimo ligų draugija