Mokslininkai perspėja, kad nuolatinės problemos kamuoja AI padedamus genominius tyrimus

Mokslininkai perspėja, kad nuolatinės problemos kamuoja AI padedamus genominius tyrimus

Gyvensena mityba, dietos, judėjimas

Viskonsino universiteto Madisono mokslininkai įspėja, kad dirbtinio intelekto įrankiai, populiarėjantys genetikos ir medicinos srityse, gali lemti klaidingas išvadas apie genų ryšį su fizinėmis savybėmis, įskaitant ligų, tokių kaip diabetas, rizikos veiksnius.

Klaidingos prognozės yra susijusios su tyrėjų AI naudojimu, kad padėtų genomo masto asociacijos tyrimams. Tokie tyrimai nuskaito šimtus tūkstančių daugelio žmonių genetinių variacijų, kad būtų galima ieškoti sąsajų tarp genų ir fizinių savybių. Ypač domina galimi genetinių variacijų ir tam tikrų ligų ryšiai.

Genetikos ryšys su liga ne visada aiškus

Genetika vaidina svarbų vaidmenį daugelio sveikatos būklių vystymuisi. Nors kai kurių atskirų genų pokyčiai yra tiesiogiai susiję su padidėjusia ligų, tokių kaip cistinė fibrozė, rizika, ryšys tarp genetikos ir fizinių savybių dažnai yra sudėtingesnis.

Genomo masto asociacijos tyrimai padėjo išsiaiškinti kai kuriuos iš šių sudėtingų dalykų, dažnai naudojant dideles asmenų genetinių profilių ir sveikatos charakteristikų duomenų bazes, tokias kaip Nacionalinio sveikatos instituto projektas „All of Us“ ir JK Biobankas. Tačiau šiose duomenų bazėse dažnai trūksta duomenų apie sveikatos būklę, kurią mokslininkai bando ištirti.

„Kai kurias charakteristikas išmatuoti labai brangu arba reikalauja daug darbo, todėl jūs tiesiog neturite pakankamai mėginių, kad padarytumėte prasmingas statistines išvadas apie jų ryšį su genetika“, – sako UW-Madison Biostatistikos katedros docentas Qiongshi Lu. ir Medicinos informatikos bei genomo masto asociacijų tyrimų ekspertas.

Duomenų spragų panaikinimo su AI rizika

Tyrėjai vis dažniau bando išspręsti šią problemą, užpildydami duomenų spragas vis sudėtingesniais AI įrankiais.

„Pastaraisiais metais tapo labai populiaru panaudoti mašininio mokymosi pažangą, todėl dabar turime šiuos pažangius mašininio mokymosi AI modelius, kuriuos mokslininkai naudoja net ribotais duomenimis prognozuodami sudėtingus bruožus ir ligų riziką“, – sako Lu.

Dabar Lu ir jo kolegos įrodė, kad yra pavojinga pasikliauti šiais modeliais, nesaugodami nuo šališkumo, kurį jie gali sukelti. Komanda aprašo problemą neseniai žurnale paskelbtame dokumente Gamtos genetika. Jame Lu ir jo kolegos rodo, kad įprastas mašininio mokymosi algoritmas, naudojamas genomo masto asociacijos tyrimuose, gali klaidingai susieti keletą genetinių variacijų su asmens rizika susirgti 2 tipo diabetu.

„Problema ta, kad jei pasitikite mašininio mokymosi nuspėjamą diabeto riziką kaip tikrąją riziką, manytumėte, kad visi tie genetiniai pokyčiai yra susiję su tikruoju diabetu, nors taip nėra“, – sako Lu.

Lu priduria, kad šie „klaidingi teigiami rezultatai“ neapsiriboja šiais specifiniais svyravimais ir diabeto rizika, bet yra plačiai paplitęs AI remiamų tyrimų šališkumas.

Naujas statistinis metodas gali sumažinti klaidingų teigiamų rezultatų skaičių

Be to, kad nustato problemą, susijusią su pernelyg dideliu pasitikėjimu dirbtinio intelekto įrankiais, Lu ir jo kolegos siūlo statistinį metodą, kurį mokslininkai gali naudoti, kad užtikrintų savo AI padedamų genomo asociacijų tyrimų patikimumą. Šis metodas padeda pašalinti šališkumą, kurį gali įvesti mašininio mokymosi algoritmai, kai daro išvadas remdamiesi neišsamia informacija.

„Ši nauja strategija yra statistiškai optimali”, – sako Lu, pažymėdamas, kad komanda ją naudojo, kad geriau nustatytų genetines asociacijas su asmenų kaulų mineralų tankiu.

AI nėra vienintelė problema, susijusi su kai kuriais genomo masto asociacijos tyrimais

Nors grupės pasiūlytas statistinis metodas galėtų padėti pagerinti AI atliekamų tyrimų tikslumą, Lu ir jo kolegos taip pat neseniai nustatė panašių tyrimų problemas, kurios užpildo duomenų spragas tarpinio serverio informacija, o ne algoritmais.

Kitame neseniai paskelbtame straipsnyje, kuris pasirodo Gamtos genetikatyrėjai skambina pavojaus signalu dėl tyrimų, kuriuose per daug remiamasi tarpinio serverio informacija, siekiant nustatyti genetikos ir tam tikrų ligų ryšį.

Pavyzdžiui, didelėse sveikatos duomenų bazėse, tokiose kaip JK Biobank, yra daug genetinės informacijos apie dideles populiacijas, tačiau jose nėra labai daug duomenų apie ligų, kurios linkusios išryškėti vėliau gyvenime, kaip ir dauguma neurodegeneracinių ligų, paplitimą.

Kalbant apie Alzheimerio ligą, kai kurie tyrėjai bandė užpildyti šią spragą su tarpiniais duomenimis, surinktais atliekant šeimos sveikatos istorijos tyrimus, kuriuose asmenys gali pranešti apie tėvų Alzheimerio ligos diagnozę.

UW-Madison komanda nustatė, kad tokie tarpinės informacijos tyrimai gali sukurti „labai klaidinančią genetinę koreliaciją“ tarp Alzheimerio ligos rizikos ir didesnių pažintinių gebėjimų.

„Šiomis dienomis genomikos mokslininkai reguliariai dirba su biobanko duomenų rinkiniais, kuriuose yra šimtai tūkstančių individų, tačiau didėjant statistinei galiai, šiuose didžiuliuose duomenų rinkiniuose taip pat padidėja šališkumas ir klaidų tikimybė“, – sako Lu.

„Mūsų grupės naujausi tyrimai pateikia žeminančių pavyzdžių ir pabrėžia statistinio griežtumo svarbą biobanko masto tyrimų tyrimuose.