Daugelis mokslininkų naudojamų statistinių modelių ir algoritmų gali būti įsivaizduojami kaip a „juoda dėžė.” Šie modeliai yra galingi įrankiai, suteikiantys tikslias prognozes, tačiau jų vidinis veikimas nėra lengvai interpretuojamas ar suprantamas.
Epochoje, kurioje vyrauja gilus mokymasis, kai galima apdoroti vis didesnį duomenų kiekį, fizikė ir mokslų daktarė Natália Ružičková. Austrijos mokslo ir technologijų instituto (ISTA) studentė nusprendė žengti žingsnį atgal. Bent jau genominių duomenų analizės kontekste.
Kartu su Michal Hledík, neseniai baigusiu ISTA, ir profesoriumi Gašperiu Tkačiku, Ružičková pasiūlė modelį, kuris galėtų padėti analizuoti. „poligeninės ligos,” kur daugelis genomo regionų prisideda prie gedimo.
Be to, modelis padeda suprasti, kodėl nustatyti genomo regionai prisideda prie šių ligų. Jie tai daro derindami naujausią genomo analizę su pagrindinėmis biologinėmis įžvalgomis. Rezultatai paskelbti m PNAS.
Žmogaus genomo dekodavimas
1990 m. buvo pradėtas Žmogaus genomo projektas, skirtas visiškai iššifruoti žmogaus DNR – genetinį planą, apibrėžiantį žmones. Kai projektas buvo baigtas, 2003 m. jis atvėrė kelią daugeliui mokslo, medicinos ir technologijų proveržių.
Iššifravę žmogaus genetinį kodą, mokslininkai tikėjosi sužinoti daugiau apie ligas, susijusias su specifinėmis šio genetinio scenarijaus mutacijomis ir variacijomis. Atsižvelgiant į tai, kad žmogaus genomą sudaro maždaug 20 000 genų ir dar daugiau bazinių porų – plano raidžių – didelė statistinė galia tapo būtina. Tai paskatino sukurti vadinamąjį „genomo masto asociacijos tyrimai” (GWAS).
GWAS sprendžia problemą nustatydama genetinius variantus, kurie gali būti susiję su tokiais organizmo bruožais kaip ūgis. Svarbu tai, kad jie taip pat apima polinkį į įvairias ligas. Tam pagrindinis statistikos principas yra gana paprastas: dalyviai skirstomi į dvi grupes – sveikus ir sergančius asmenis. Tada išanalizuojama jų DNR, siekiant aptikti variacijas – jų genomo pokyčius – kurie yra ryškesni sergantiesiems.
Genų sąveika
Kai pasirodė viso genomo asociacijos tyrimai, mokslininkai tikėjosi rasti tik keletą žinomų genų mutacijų, susijusių su liga, kurios paaiškintų skirtumą tarp sveikų ir sergančių asmenų. Tačiau tiesa yra daug sudėtingesnė.
„Kartais yra šimtai ar tūkstančiai mutacijų, susijusių su konkrečia liga,” sako Ružičkova. „Tai buvo stebinantis apreiškimas ir prieštaravo mūsų turimam biologijos supratimui.”
Atskirai kiekviena mutacija turi minimalų poveikį arba prisideda prie ligos išsivystymo rizikos. Tačiau kartu jie gali geriau, bet ne iki galo paaiškinti, kodėl kai kuriems asmenims išsivysto liga. Tokios ligos vadinamos „poligeninis.” Pavyzdžiui, 2 tipo diabetas yra poligeninis, nes jo negalima priskirti vienam genui; vietoj to ji apima šimtus mutacijų.
Kai kurios iš šių mutacijų turi įtakos insulino gamybai, insulino veikimui arba gliukozės metabolizmui, o dauguma jų yra genominiuose regionuose, kurie anksčiau nebuvo susiję su diabetu arba kurių biologinės funkcijos nežinomos.

Visagalis modelis
2017 m. Evanas A. Boyle'as ir kolegos iš Stanfordo universiteto pasiūlė naują koncepcinę sistemą, pavadintą „omnigeninis modelis.” Jie pasiūlė paaiškinimą, kodėl tiek daug genų prisideda prie ligų: ląstelės turi reguliavimo tinklus, kurie susieja genus su įvairiomis funkcijomis.
„Kadangi genai yra tarpusavyje susiję, vieno geno mutacija gali paveikti kitus, nes mutacijos poveikis plinta per reguliavimo tinklą,” Ružičkova paaiškina. Dėl šių tinklų daugelis reguliavimo sistemos genų galiausiai prisideda prie ligos. Tačiau iki šiol šis modelis nebuvo suformuluotas matematiškai ir išliko konceptualia hipoteze, kurią buvo sunku patikrinti.
Naujausiame savo darbe Ružičková ir jos kolegos pristato naują matematinį formalizavimą, pagrįstą visagaliu modeliu, pavadintu „kiekybinis omnigeninis modelis” (QOM).
Derinant statistiką ir biologiją
Norėdami parodyti naujojo modelio potencialą, jie turėjo pritaikyti sistemą gerai apibūdintai biologinei sistemai. Jie pasirinko įprastą laboratorinių mielių modelį Saccharomyces cerevisiae, geriau žinomą kaip alaus arba kepimo mielės. Tai vienaląsčiai eukariotai, o tai reiškia, kad jo ląstelių struktūra yra panaši į sudėtingų organizmų, tokių kaip žmonės, struktūrą.
„Mielėse mes gana gerai suprantame, kaip yra struktūruojami reguliavimo tinklai, jungiantys genus,” Ružičkova sako.
Naudodami savo modelį mokslininkai numatė genų ekspresijos lygius – genų aktyvumo intensyvumą, nurodantį, kiek informacijos iš DNR yra aktyviai panaudota – ir kaip mutacijos plinta per mielių reguliavimo tinklą. Prognozės buvo labai veiksmingos. Modelis ne tik nustatė atitinkamus genus, bet ir galėjo aiškiai nustatyti, kuri mutacija greičiausiai prisidėjo prie konkretaus rezultato.
Poligeninių ligų dėlionės detalės
Mokslininkų tikslas buvo ne pranokti standartinį GWAS numatymo našumu, o eiti kita kryptimi, padarant modelį interpretuojamą. Tuo tarpu standartinis GWAS modelis veikia kaip a „juoda dėžė,” Pateikdamas statistinę informaciją apie tai, kaip dažnai tam tikra mutacija yra susijusi su liga, naujasis modelis taip pat pateikia įvykių grandinės priežastinį mechanizmą, kaip ši mutacija gali sukelti ligą.
Medicinoje biologinio konteksto ir tokių priežastinių būdų supratimas turi didžiulį poveikį ieškant naujų gydymo galimybių. Nors šiuo metu modelis toli gražu nėra pritaikytas medicinoje, jis rodo potencialą, ypač norint sužinoti daugiau apie poligenines ligas.
„Jei turite pakankamai žinių apie reguliavimo tinklus, galite sukurti panašius modelius ir kitiems organizmams. Mes pažvelgėme į genų ekspresiją mielėse, o tai tik pirmasis žingsnis ir principo įrodymas. Dabar, kai suprantame, kas įmanoma, galima pradėti galvoti apie taikymą žmogaus genetikai,” sako Ružičkova.
