Didelės kalbos modeliai gali sėkmingai išlaikyti medicininius egzaminus, tačiau jų naudojimas diagnozėms šiuo metu būtų labai aplaidus. Medicininiai pokalbių robotai skubotai diagnozuoja, nesilaiko gairių ir keltų pavojų pacientų gyvybėms.
Tokią išvadą padarė TUM komanda. Pirmą kartą jie sistemingai ištyrė, ar ši dirbtinio intelekto (AI) forma būtų tinkama kasdienei klinikinei praktikai.
Nepaisant dabartinių trūkumų, mokslininkai įžvelgia technologijos potencialą. Jie paskelbė metodą, kuris gali būti naudojamas būsimų medicininių pokalbių robotų patikimumui patikrinti.
Dideli kalbų modeliai yra kompiuterinės programos, apmokytos naudoti didžiulius teksto kiekius. Specialiai parengti „ChatGPT“ technologijos variantai dabar netgi beveik nepriekaištingai išsprendžia baigiamuosius medicinos studijų egzaminus.
Bet ar toks AI galėtų perimti greitosios medicinos pagalbos gydytojų užduotis? Ar ji galėtų paskirti atitinkamus tyrimus, nustatyti teisingą diagnozę ir sudaryti gydymo planą, pagrįstą paciento simptomais?
Tarpdisciplininė komanda, vadovaujama Danielio Rückerto, TUM dirbtinio intelekto sveikatos priežiūros ir medicinos profesoriaus, nagrinėjo šį klausimą straipsnyje, paskelbtame žurnale. Gamtos medicina.
Pirmą kartą gydytojai ir dirbtinio intelekto ekspertai sistemingai ištyrė, kaip skirtingi atvirojo kodo didelės kalbos modelio Llama 2 variantai yra sėkmingi diagnozuojant.
Atkuriamas kelias nuo greitosios pagalbos skyriaus iki gydymo
Norėdami patikrinti šių sudėtingų algoritmų galimybes, mokslininkai panaudojo anoniminius pacientų duomenis iš JAV klinikos. Jie atrinko 2400 atvejų iš didesnio duomenų rinkinio. Visi pacientai buvo atvykę į greitosios pagalbos skyrių su pilvo skausmais. Kiekvieno atvejo aprašymas baigėsi viena iš keturių diagnozių ir gydymo planu. Buvo prieinami visi diagnozei užfiksuoti duomenys – nuo ligos istorijos ir kraujo verčių iki vaizdo duomenų.
„Mes paruošėme duomenis taip, kad algoritmai galėtų imituoti realias procedūras ir sprendimų priėmimo procesus ligoninėje”, – aiškina Friederike Jungmann, TUM Klinikum rechts der Isar radiologijos skyriaus gydytojo padėjėja ir pagrindinis tyrimo autorius. studijuoti kartu su informatiku Paulu Hageriu.
„Programa turėjo tik tą informaciją, kurią turėjo tikrieji gydytojai. Pavyzdžiui, ji pati turėjo nuspręsti, ar užsisakyti kraujo tyrimą, o tada panaudoti šią informaciją kitam sprendimui, kol galiausiai buvo nustatyta diagnozė ir gydymo planas. “
Grupė nustatė, kad nė vienas iš didelių kalbos modelių nuosekliai neprašė atlikti visų būtinų egzaminų. Tiesą sakant, programų diagnozės tapo mažiau tikslios, kuo daugiau informacijos jos turėjo apie atvejį. Jie dažnai nesilaikydavo gydymo gairių, kartais skirdavo tyrimus, kurie būtų turėję rimtų pasekmių tikrų pacientų sveikatai.
Tiesioginis palyginimas su gydytojais
Antroje tyrimo dalyje mokslininkai palygino AI diagnozes duomenų pogrupyje su keturių gydytojų diagnozėmis. Nors pastarieji buvo teisingi 89% diagnozių, geriausias didelės kalbos modelis pasiekė tik 73%. Kiekvienas modelis kai kurias ligas atpažino geriau nei kitas. Vienu kraštutiniu atveju modelis teisingai diagnozavo tulžies pūslės uždegimą tik 13 % atvejų.
Kita problema, dėl kurios programas negalima naudoti kasdien, yra tvirtumo trūkumas: didelio kalbos modelio diagnozė, be kita ko, priklausė nuo informacijos gavimo tvarkos. Lingvistinės subtilybės taip pat turėjo įtakos rezultatui – pavyzdžiui, ar programos buvo prašoma pagrindinės diagnozės, pirminės diagnozės ar galutinės diagnozės. Kasdienėje klinikinėje praktikoje šie terminai paprastai keičiami.
ChatGPT neišbandytas
Komanda aiškiai neišbandė komercinių didelių kalbų modelių iš OpenAI (ChatGPT) ir Google dėl dviejų pagrindinių priežasčių. Pirma, ligoninės duomenų teikėjas duomenų apsaugos sumetimais uždraudė tvarkyti duomenis naudojant šiuos modelius. Antra, ekspertai primygtinai rekomenduoja sveikatos priežiūros sektoriuje naudoti tik atvirojo kodo programinę įrangą.
„Tik naudojant atvirojo kodo modelius, ligoninės turi pakankamai kontrolės ir žinių, kad užtikrintų pacientų saugumą. Kai testuojame modelius, labai svarbu žinoti, kokie duomenys buvo naudojami juos apmokant. Priešingu atveju galime juos išbandyti su tais pačiais klausimais ir atsakymais. Jie buvo apmokyti, žinoma, įmonės labai paslapčia savo mokymo duomenis, todėl sunku atlikti teisingus vertinimus“, – sako Paulas Hageris.
„Be to, pagrindinę medicinos infrastruktūrą grįsti išorinėmis paslaugomis, kurios atnaujina ir keičia modelius, kaip nori, yra pavojinga. Blogiausiu atveju paslauga, nuo kurios priklauso šimtai klinikų, gali būti uždaryta, nes ji nėra pelninga.”
Spartus progresas
Šios technologijos raida sparčiai vystosi. „Visiškai įmanoma, kad artimiausioje ateityje didelis kalbos modelis bus geriau pritaikytas diagnozei nustatyti remiantis ligos istorija ir tyrimų rezultatais“, – sako prof. Danielis Rückertas. „Todėl mes išleidome savo bandymų aplinką visoms tyrimų grupėms, kurios nori išbandyti didelius kalbos modelius klinikiniame kontekste.”
Rückert įžvelgia technologijų potencialą: „Ateityje didelės kalbos modeliai gali tapti svarbiomis priemonėmis gydytojams, pavyzdžiui, aptariant atvejį. Tačiau visada turime žinoti šios technologijos apribojimus ir ypatumus ir į juos atsižvelgti kurdami programas “, – sako medicinos AI ekspertas.