Naujas testas įvertina AI gydytojų bendravimo įgūdžius realiame pasaulyje

Naujas testas įvertina AI gydytojų bendravimo įgūdžius realiame pasaulyje

Gyvensena mityba, dietos, judėjimas

Dirbtinio intelekto įrankiai, tokie kaip „ChatGPT“, buvo garsinami už pažadą palengvinti gydytojų darbo krūvį tiriant pacientus, kaupiant ligos istorijas ir netgi pateikiant preliminarias diagnozes.

Šias priemones, žinomas kaip modeliai didelėmis kalbomis, pacientai jau naudoja norėdami suprasti savo simptomus ir medicininių tyrimų rezultatus.

Tačiau nors šie dirbtinio intelekto modeliai įspūdingai atlieka standartizuotus medicininius testus, kaip jiems sekasi situacijose, kurios labiau imituoja realų pasaulį?

Ne taip puiku, remiantis naujo tyrimo, kurį atliko Harvardo medicinos mokyklos ir Stanfordo universiteto mokslininkai, išvadomis.

Jų analizei paskelbta sausio 2 d Gamtos medicinamokslininkai sukūrė vertinimo sistemą arba testą, vadinamą CRAFT-MD (Pokalbio samprotavimo vertinimo sistema, skirta testavimui medicinoje) ir panaudojo ją keturiuose didelės kalbos modeliuose, kad pamatytų, kaip gerai jie veikia aplinkoje, kuri labai imituoja tikrąją sąveiką su pacientais.

Visi keturi didelės kalbos modeliai gerai atliko medicininių egzaminų stiliaus klausimus, tačiau jų rezultatai pablogėjo, kai jie įsitraukė į pokalbius, labiau imituojančius realaus pasaulio sąveiką.

Ši spraga, pasak mokslininkų, pabrėžia dvejopą poreikį: pirma, sukurti realistiškesnius vertinimus, kurie geriau įvertintų klinikinių AI modelių tinkamumą naudoti realiame pasaulyje, ir, antra, pagerinti šių įrankių gebėjimą diagnozuoti. pagrįstos tikroviškesne sąveika prieš jas panaudojant klinikoje.

Tyrėjų komandos teigimu, tokie vertinimo įrankiai kaip CRAFT-MD gali ne tik tiksliau įvertinti AI modelius, kad būtų galima tinkamai pasirengti realiame pasaulyje, bet ir padėti optimizuoti jų veikimą klinikoje.

„Mūsų darbas atskleidžia stulbinantį paradoksą – nors šie dirbtinio intelekto modeliai puikiai atlieka medicininės komisijos egzaminus, jie susiduria su pagrindiniais vizito pas gydytoją reikalais“, – sakė tyrimo vyresnysis autorius Pranavas Rajpurkaras, Harvardo medicinos mokyklos biomedicininės informatikos docentas. .

„Dinaminis medicininių pokalbių pobūdis – poreikis užduoti tinkamus klausimus tinkamu laiku, surinkti išsklaidytą informaciją ir samprotauti pagal simptomus – kelia unikalių iššūkių, kurie yra daug daugiau nei atsakymas į klausimus su atsakymų variantais. Kai pereiname nuo standartizuotų testų. Dėl šių natūralių pokalbių net ir patys sudėtingiausi AI modeliai rodo reikšmingą diagnostikos tikslumo kritimą.

Geresnis testas norint patikrinti AI veikimą realiame pasaulyje

Šiuo metu kūrėjai tikrina dirbtinio intelekto modelių veikimą, prašydami atsakyti į medicininius klausimus su daugybe pasirinkimų, kurie paprastai kyla iš nacionalinio egzamino, skirto baigiantiems medicinos studentams, arba iš testų, atliekamų medicinos rezidentams kaip jų sertifikato dalis.

„Šiuo metodu daroma prielaida, kad visa svarbi informacija pateikiama aiškiai ir glaustai, dažnai naudojant medicininę terminiją arba tradicinius žodžius, kurie supaprastina diagnostikos procesą, tačiau realiame pasaulyje šis procesas yra kur kas nepatogus“, – sakė tyrimo bendraautorė, doktorantė Shreya Johri. Harvardo medicinos mokyklos Rajpurkar laboratorijoje.

„Mums reikia testavimo sistemos, kuri geriau atspindėtų tikrovę ir todėl geriau prognozuotų, kaip gerai veiktų modelis.”

CRAFT-MD buvo sukurtas taip, kad būtų vienas iš tokių tikroviškesnių matuoklių.

Siekdama imituoti realią sąveiką, CRAFT-MD įvertina, ar didelės kalbos modeliai gali rinkti informaciją apie simptomus, vaistus ir šeimos istoriją ir nustatyti diagnozę. AI agentas naudojamas pozuoti kaip pacientas, atsakydamas į klausimus pokalbio, natūraliu stiliumi.

Kitas AI agentas įvertina galutinės diagnozės tikslumą, pateiktą naudojant didžiosios kalbos modelį. Tada ekspertai įvertina kiekvieno susitikimo rezultatus, siekdami surinkti svarbią informaciją apie pacientą, diagnostikos tikslumą, kai pateikiama išsklaidyta informacija, ir raginimų laikymąsi.

Tyrėjai naudojo CRAFT-MD, kad išbandytų keturis AI modelius – tiek patentuotus, tiek komercinius ir atvirojo kodo – 2000 klinikinių vinječių, būdingų pirminės sveikatos priežiūros ir 12 medicinos specialybių sąlygoms.

Visi AI modeliai parodė apribojimus, ypač jų gebėjimą vesti klinikinius pokalbius ir motyvuoti, remiantis pacientų pateikta informacija. Tai savo ruožtu pakenkė jų gebėjimui rinkti ligos istoriją ir nustatyti tinkamą diagnozę. Pavyzdžiui, modeliams dažnai buvo sunku užduoti tinkamus klausimus, kad surinktų atitinkamą paciento istoriją, jie praleisdavo svarbią informaciją rinkdami istoriją ir jiems sunku susintetinti išsklaidytą informaciją.

Šių modelių tikslumas sumažėjo, kai jiems buvo pateikta neribota informacija, o ne atsakymų variantai. Be to, šie modeliai veikė blogiau, kai buvo užsiimama pirmyn ir atgal vykstančiais mainais (kaip ir dauguma realaus pasaulio pokalbių), o ne tada, kai dalyvauja apibendrintuose pokalbiuose.

Rekomendacijos, kaip optimizuoti AI veikimą realiame pasaulyje

Remdamasi šiomis išvadomis, komanda siūlo rekomendacijų rinkinį AI kūrėjams, kuriantiems AI modelius, ir reguliuotojams, atsakingiems už šių įrankių įvertinimą ir patvirtinimą.

Tai apima:

  • Pokalbių, atvirų klausimų, kurie tiksliau atspindi nestruktūruotą gydytojo ir paciento sąveiką, naudojimas kuriant, mokant ir testuojant AI įrankius
  • Įvertinti modelių gebėjimą užduoti teisingus klausimus ir išgauti svarbiausią informaciją
  • Kurti modelius, galinčius sekti kelis pokalbius ir integruoti iš jų informaciją
  • AI modelių, galinčių integruoti tekstinius (pokalbių užrašus) su ir netekstiniais duomenimis (vaizdais, EKG), kūrimas
  • Sukurti sudėtingesnius AI agentus, galinčius interpretuoti neverbalinius signalus, tokius kaip veido išraiškos, tonas ir kūno kalba

Be to, vertinimas turėtų apimti ir AI agentus, ir žmonių ekspertus, rekomenduoja mokslininkai, nes pasikliauti vien žmonių ekspertais yra daug darbo jėgos ir brangu. Pavyzdžiui, CRAFT-MD aplenkė žmonių vertintojus, apdorodama 10 000 pokalbių per 48–72 valandas ir 15–16 valandų ekspertinio vertinimo.

Priešingai, taikant žmogiškuosius metodus reikėtų daug įdarbinti ir maždaug 500 valandų pacientų modeliavimui (beveik trys minutės vienam pokalbiui) ir apie 650 valandų ekspertų vertinimams (beveik keturios minutės vienam pokalbiui). AI vertintojų naudojimas kaip pirmoji eilutė turi papildomą pranašumą, nes pašalina riziką, kad tikriems pacientams bus taikomos nepatikrintos AI priemonės.

Tyrėjai teigė, kad tikisi, kad pati CRAFT-MD taip pat bus periodiškai atnaujinama ir optimizuojama, kad būtų integruoti patobulinti pacientų AI modeliai.

„Kaip gydytojas mokslininkas, mane domina AI modeliai, galintys efektyviai ir etiškai išplėsti klinikinę praktiką“, – sakė tyrimo bendraautorė Roxana Daneshjou, Stanfordo universiteto Biomedicininių duomenų mokslo ir dermatologijos docentė.

„CRAFT-MD sukuria sistemą, kuri labiau atspindi realaus pasaulio sąveiką, todėl padeda judėti į priekį, kai reikia išbandyti AI modelio veikimą sveikatos priežiūros srityje.