Naujas metodas suspaudžia terabaitus genominių duomenų į gigabaitus

Naujas metodas suspaudžia terabaitus genominių duomenų į gigabaitus

Gyvensena mityba, dietos, judėjimas

Genomo tyrinėtojai galėjo saugoti savo duomenų rinkinius nešiojamajame kompiuteryje, tačiau dabar, kai galima tirti tiek daug ištisų genomų, gauti dideli duomenų rinkiniai turi būti saugomi debesyje, todėl skaičiavimai bus brangesni, lėtesni ir sudėtingesni.

Naujas metodas, sukurtas Kornelyje, suteikia įrankius ir metodikas, skirtas suspausti šimtus terabaitų genominių duomenų iki gigabaitų, o tai dar kartą leidžia tyrėjams saugoti duomenų rinkinius vietiniuose kompiuteriuose. Gruodžio 5 d. paskelbtas jų dokumentas „Bialobanko masto duomenų efektyvios analizės su genotipų vaizdavimo grafikais įgalinimas“ Gamtos skaičiavimo mokslas.

„Net prieš kelerius metus mūsų tiriami duomenys dažniausiai nebuvo viso genomo sekos nustatymo duomenys, o tai reiškė, kad buvo matuojama tik nedidelė genomų dalis, o ne visas genomas. duomenys nebuvo tokie beprotiški“, – sakė Menų ir mokslų kolegijos kompiuterinės biologijos docentas April Wei.

Neapdorotų duomenų dydis dabar gali siekti petabaitus, sakė bendraautorius Drew DeHaas, Žemės ūkio ir gyvosios gamtos mokslų kolegijos skaičiavimo genetikos programuotojas.

Wei visada norėjo sukurti metodus, kaip panaudoti biobanko masto duomenis atliekant tyrimus dėl turimos informacijos gausos, tačiau daugelis dalykų, kurių ji norėjo padaryti, buvo neįmanomi dėl skaičiavimo išlaidų ir iššūkių. Pasak jos, tai paskatino ją išspręsti suspaudimo problemą, dėl kurios buvo sukurtas genotipo reprezentacijos grafiko (GRG) metodas, kuris naudoja grafikus duomenims valdyti.

„Grafais pagrįsti metodai jau seniai naudojami kompiuterių moksle ir kitose srityse, siekiant suteikti aiškią sistemą sudėtingoms problemoms spręsti“, – sakė DeHaas, tačiau iki GRG nebuvo taikomas duomenų glaudinimo sprendimui genomikos srityje Biobank mastu.

Wei, apmokytas populiacijos genetikos specialisto, buvo gerai susipažinęs su populiacijos genetikoje naudojamais grafikais, nors GRG sukurtas gana skirtingai.

„Skirtingai nuo įprastų matricos pagrįstų vaizdų, GRG genotipus vaizduoja kaip grafiką, kuriame ryšiai tarp individų fiksuojami per bendras jų genomų mutacijas. GRG duomenų struktūra ne tik intuityviau ir kompaktiškiau koduoja genotipinę informaciją, bet ir palengvina efektyvius grafikus pagrįstus skaičiavimus. pažangioms analizėms“, – sakė bendraautorius Ziqingas Panas, skaičiavimo biologijos srities doktorantas.

Pasak Wei, GRG suspaudžia duomenis, sutelkdama dėmesį į mastelį ir tiksliai pateikdama duomenis.

„Didelis grafikų naudojimo glaudinimui pranašumas yra tas, kad galime atlikti skaičiavimus su grafikais, nereikia išskleisti duomenų“, – sakė ji. „Be to, būtų galima sukurti konkrečius algoritmus, kurie galėtų padaryti tai, ko žmonės negalėjo padaryti naudojant senesnius formatus, todėl gali būti daugiau naudos.

Kadangi GRG leidžia tyrėjams efektyviau analizuoti tuos pačius duomenis, tai taip pat sumažina išlaidas.