Tyrimas atskleidžia, kodėl AI modeliai, analizuojantys medicininius vaizdus, gali būti šališki

2024.06.29 1:54

Dirbtinio intelekto modeliai dažnai atlieka svarbų vaidmenį atliekant medicinines diagnozes, ypač kai reikia analizuoti vaizdus, pvz., Rentgeno spindulius. Tačiau tyrimai parodė, kad šie modeliai ne visada gerai veikia visose demografinėse grupėse, o moterims ir spalvotiems žmonėms paprastai sekasi blogiau.

Taip pat buvo įrodyta, kad šie modeliai išvysto keletą nuostabių sugebėjimų. 2022 m. MIT mokslininkai pranešė, kad dirbtinio intelekto modeliai gali tiksliai prognozuoti paciento rasę iš krūtinės ląstos rentgeno spindulių – to negali padaryti patys įgudę radiologai.

Ši tyrimų grupė dabar nustatė, kad modeliai, kurie tiksliausiai prognozuoja demografines prognozes, taip pat rodo didžiausias „sąžiningumo spragas“, ty jų gebėjimo tiksliai diagnozuoti skirtingų rasių ar lyčių žmonių vaizdus neatitikimus. Išvados rodo, kad šie modeliai, atlikdami diagnostinius vertinimus, gali naudoti „demografines nuorodas“, o tai lemia neteisingus rezultatus moterims, juodaodžiams ir kitoms grupėms, teigia mokslininkai.

„Nustatyta, kad didelio pajėgumo mašininio mokymosi modeliai yra geras žmonių demografinių rodiklių, pvz., rasės, lyties ar amžiaus, prognozės. Šiame dokumente dar kartą parodomas šis pajėgumas ir susiejamas tas pajėgumas su nepakankamu našumu įvairiose šalyse. grupėse, kas niekada nebuvo padaryta“, – sako Marzyehas Ghassemi, MIT elektrotechnikos ir kompiuterių mokslo docentas, MIT medicinos inžinerijos ir mokslo instituto narys ir vyresnysis tyrimo autorius.

Tyrėjai taip pat nustatė, kad jie galėtų perkvalifikuoti modelius tokiu būdu, kuris pagerintų jų teisingumą. Tačiau jų požiūris į „nukrypimą“ veikė geriausiai, kai modeliai buvo išbandyti su tų pačių tipų pacientais, kuriems jie buvo mokomi, pavyzdžiui, pacientai iš tos pačios ligoninės. Kai šie modeliai buvo pritaikyti pacientams iš skirtingų ligoninių, teisingumo spragos vėl atsirado.

„Manau, kad svarbiausia yra tai, kad pirmiausia turėtumėte kruopščiai įvertinti bet kokius išorinius modelius pagal savo duomenis, nes bet koks sąžiningumas garantuoja, kad modelių kūrėjai pateikia savo mokymo duomenis, kad jie nebus perduoti jūsų populiacijai. Antra, kai tik yra pakankamai duomenų, turėtumėte mokyti modelius pagal savo duomenis“, – sako Haoranas Zhangas, MIT magistrantas ir vienas iš pagrindinių naujojo dokumento autorių.

MIT absolventas Yuzhe Yang taip pat yra pagrindinis šio straipsnio, kuris pasirodys, autorius Gamtos medicina. Judy Gichoya, Emory universiteto medicinos mokyklos radiologijos ir vaizdavimo mokslų docentė, ir Dina Katabi, Thuan ir Nicole Pham, MIT elektros inžinerijos ir kompiuterių mokslų profesorė, taip pat yra šio straipsnio autoriai.

Šališkumo pašalinimas

2024 m. gegužės mėn. FDA patvirtino 882 AI palaikančius medicinos prietaisus, iš kurių 671 skirtas naudoti radiologijoje. Nuo 2022 m., kai Ghassemi ir jos kolegos parodė, kad šie diagnostiniai modeliai gali tiksliai numatyti rasę, jie ir kiti mokslininkai parodė, kad tokie modeliai taip pat labai gerai prognozuoja lytį ir amžių, nors modeliai nėra apmokyti atlikti šias užduotis.

„Daugelis populiarių mašininio mokymosi modelių turi antžmogiškus demografinius numatymo gebėjimus – radiologai negali aptikti rasės, apie kurią buvo pranešta iš krūtinės ląstos rentgeno spindulių“, – sako Ghassemi. „Tai yra modeliai, kurie gerai prognozuoja ligas, bet treniruočių metu mokosi numatyti kitus dalykus, kurie gali būti nepageidautini.”

Šiame tyrime mokslininkai nusprendė ištirti, kodėl šie modeliai neveikia taip gerai tam tikroms grupėms. Visų pirma, jie norėjo sužinoti, ar modeliai naudoja demografinius sparčiuosius klavišus, kad padarytų prognozes, kurios kai kurioms grupėms buvo ne tokios tikslios. Šie spartieji klavišai gali atsirasti AI modeliuose, kai jie naudoja demografinius požymius, kad nustatytų, ar yra sveikatos būklė, o ne pasikliauja kitomis vaizdų savybėmis.

Naudodami viešai prieinamus krūtinės ląstos rentgeno duomenų rinkinius iš Beth Israel Deaconess medicinos centro Bostone, tyrėjai apmokė modelius, kad galėtų numatyti, ar pacientai turi vieną iš trijų skirtingų sveikatos būklių: skysčių susikaupimą plaučiuose, plaučių kolapsą ar širdies išsiplėtimą. Tada jie išbandė modelius rentgeno spinduliais, kurie buvo gauti iš mokymo duomenų.

Apskritai modeliai veikė gerai, tačiau dauguma jų rodė „sąžiningumo spragas“, ty vyrų ir moterų bei baltųjų ir juodaodžių pacientų tikslumo rodiklių neatitikimus.

Modeliai taip pat galėjo numatyti rentgeno tiriamųjų lytį, rasę ir amžių. Be to, buvo reikšminga koreliacija tarp kiekvieno modelio demografinių prognozių tikslumo ir jo teisingumo atotrūkio dydžio. Tai rodo, kad modeliai gali naudoti demografines kategorijas kaip nuorodą, kad galėtų prognozuoti ligą.

Tada tyrėjai bandė sumažinti sąžiningumo spragas naudodami dviejų tipų strategijas. Vieno modelių rinkinio atveju jie mokė juos optimizuoti „pogrupio tvirtumą“, o tai reiškia, kad modeliai yra apdovanoti už geresnius rezultatus pogrupyje, kurio našumas yra prasčiausias, ir baudžiami, jei jų klaidų lygis vienoje grupėje yra didesnis nei kiti.

Kitame modelių rinkinyje tyrėjai privertė juos pašalinti bet kokią demografinę informaciją iš vaizdų, taikydami „grupinio priešiškumo“ metodus. Mokslininkai nustatė, kad abi šios strategijos veikė gana gerai.

„Duomenims platinti galite naudoti esamus pažangiausius metodus, kad sumažintumėte teisingumo spragas, nedarant didelių kompromisų dėl bendro našumo“, – sako Ghassemi. „Pogrupio tvirtumo metodai verčia modelius būti jautrius klaidingam konkrečios grupės nuspėjimui, o grupės priešpriešiniai metodai bando visiškai pašalinti grupės informaciją.”

Ne visada teisingiau

Tačiau šie metodai veikė tik tada, kai modeliai buvo išbandyti naudojant tų pačių tipų pacientų duomenis, apie kuriuos jie buvo mokomi, pavyzdžiui, tik pacientai iš Beth Israel Deaconess medicinos centro duomenų rinkinio.

Kai tyrėjai išbandė modelius, kurie buvo „nukrypę“ naudodami BIDMC duomenis, kad galėtų analizuoti pacientus iš penkių kitų ligoninių duomenų rinkinių, jie nustatė, kad bendras modelių tikslumas išliko didelis, tačiau kai kuriuose iš jų buvo didelių teisingumo spragų.

„Jei nukrypstate nuo modelio vienoje pacientų grupėje, tas teisingumas nebūtinai galioja, kai persikeliate į naują pacientų grupę iš kitos ligoninės kitoje vietoje“, – sako Zhang.

Tai kelia nerimą, nes daugeliu atvejų ligoninės naudoja modelius, kurie buvo sukurti remiantis kitų ligoninių duomenimis, ypač tais atvejais, kai perkamas jau paruoštas modelis, teigia mokslininkai.

„Mes nustatėme, kad net moderniausi modeliai, kurie yra optimaliai našūs pagal duomenis, panašius į jų mokymo rinkinius, nėra optimalūs, ty jie nesudaro geriausio kompromiso tarp bendro ir pogrupio našumo naujomis sąlygomis “, – sako Ghassemi. „Deja, iš tikrųjų modelis gali būti įdiegtas taip. Dauguma modelių yra apmokomi ir patvirtinami naudojant duomenis iš vienos ligoninės arba vieno šaltinio, o tada plačiai naudojami.”

Tyrėjai išsiaiškino, kad modeliai, kurie buvo atmestini taikant grupių priešiškumą, parodė šiek tiek teisingesnį bandymą su naujomis pacientų grupėmis, nei tie, kurie buvo atmetami taikant pogrupio tvirtumo metodus. Dabar jie planuoja pabandyti sukurti ir išbandyti papildomus metodus, kad sužinotų, ar jie gali sukurti modelius, kurie geriau atliktų teisingas naujų duomenų rinkinių prognozes.

Išvados rodo, kad ligoninės, kurios naudoja šių tipų AI modelius, prieš pradėdamos juos naudoti, turėtų juos įvertinti pagal savo pacientų populiaciją, kad įsitikintų, jog tam tikroms grupėms jie nepateikia netikslių rezultatų.

Tyrimas atskleidžia, kodėl AI modeliai, analizuojantys medicininius vaizdus, ​​gali būti šališki

Šališkumo pašalinimas

Ne visada teisingiau

Tyrimas atskleidžia, kodėl AI modeliai, analizuojantys medicininius vaizdus, gali būti šališki