Tyrimas rodo, kad skubios pagalbos atveju „ChatGPT“ nurodo per daug

Tyrimas atskleidžia seksualinį šališkumą skubios pagalbos skyriaus skausmo valdyme

2024.10.09 6:48

Jei ChatGPT būtų panaikintas Skubios pagalbos skyriuje, kai kuriems pacientams gali būti pasiūlyta nereikalingų rentgeno spindulių ir antibiotikų, o kitus, kuriems nereikėjo gydymo ligoninėje, nustatyta naujame UC San Francisko tyrime.

Tyrėjai teigė, kad nors modelis gali būti paskatintas taip, kad jo atsakymai būtų tikslesni, jis vis tiek neatitinka žmogaus gydytojo klinikinio sprendimo.

„Tai vertinga žinia gydytojams, kad jie aklai nepasitikėtų šiais modeliais“, – sakė doktorantas Chrisas Williamsas, MB BChir, pagrindinis tyrimo, kuris pasirodys spalio 8 d., autorius. Gamtos komunikacijos. „ChatGPT gali atsakyti į medicininės apžiūros klausimus ir padėti parengti klinikinius užrašus, tačiau šiuo metu jis nėra skirtas situacijoms, kuriose reikia daug svarstyti, pavyzdžiui, skubios pagalbos skyriuje.

Neseniai Williamsas parodė, kad ChatGPT, didelės kalbos modelis (LLM), kuris gali būti naudojamas tiriant klinikinius AI pritaikymus, buvo šiek tiek geriau nei žmonės nustatydamas, kuris iš dviejų skubios pagalbos pacientų buvo labiausiai blogas. Tai yra paprastas pasirinkimas tarp paciento A ir paciento. B.

Atlikdamas dabartinį tyrimą, Williamsas metė iššūkį AI modeliui atlikti sudėtingesnę užduotį: pateikti rekomendacijas, kurias pateikia gydytojas, iš pradžių apžiūrėjęs pacientą ED. Tai apima sprendimą priimti pacientą, atlikti rentgeno ar kitokius skenavimus, ar skirti antibiotikų.

AI modelis yra mažiau tikslus nei gyventojo

Kiekvienam iš trijų sprendimų komanda sudarė 1 000 ED apsilankymų rinkinį, kad galėtų analizuoti iš daugiau nei 251 000 apsilankymų archyvo. Rinkiniai turėjo tokį patį „taip“ ir „ne“ atsakymų santykį sprendimams dėl priėmimo, radiologijos ir antibiotikų, kaip matyti visame UCSF sveikatos pagalbos skyriuje.

Naudodami saugią UCSF generuojamąją AI platformą, kuri turi plačią privatumo apsaugą, mokslininkai į ChatGPT-3.5 ir ChatGPT-4 įtraukė gydytojų pastabas apie kiekvieno paciento simptomus ir tyrimo išvadas. Tada jie išbandė kiekvieno rinkinio tikslumą su vis išsamesniais nurodymais.

Apskritai, dirbtinio intelekto modeliai dažniausiai rekomenduodavo paslaugas dažniau nei reikėjo. „ChatGPT-4“ buvo 8 % mažiau tikslus nei gydytojų rezidentų, o „ChatGPT-3.5“ buvo 24 % mažiau tikslus.

Williamsas teigė, kad dirbtinio intelekto polinkis per daug išrašyti gali būti dėl to, kad modeliai yra mokomi internete, kur teisėtos medicininės konsultacijos svetainės nėra skirtos atsakyti į skubios medicinos klausimus, o siųsti skaitytojus pas gydytoją, kuris gali.

„Šie modeliai yra beveik sureguliuoti taip, kad pasakytų: „Kreipkitės į gydytoją“, o tai yra visiškai teisinga bendrosios visuomenės saugumo požiūriu, – sakė jis. „Tačiau klysti dėl atsargumo ne visada tinkama ED aplinkoje. kur bereikalingos intervencijos gali pakenkti pacientams, suvaržyti išteklius ir padidinti pacientų išlaidas.

Jis sakė, kad tokiems modeliams kaip „ChatGPT“ reikės geresnių klinikinės informacijos vertinimo sistemų, kol jie bus pasirengę ED. Žmonės, kurie kuria šias sistemas, turės išlaikyti pusiausvyrą tarp to, kad dirbtinis intelektas nepraleistų ko nors rimto ir neleistų jam sukelti nereikalingų egzaminų ir išlaidų.

Tai reiškia, kad mokslininkai, kuriantys dirbtinio intelekto pritaikymą medicinoje, kartu su platesne klinikine bendruomene ir visuomene turi apsvarstyti, kur nubrėžti šias linijas ir kiek klysti.

„Nėra tobulo sprendimo, – sakė jis, – bet žinodami, kad tokie modeliai kaip ChatGPT turi tokias tendencijas, mes turime apgalvoti, kaip norime, kad jie veiktų klinikinėje praktikoje.”