| Anotācija |
Maģistra darbā tiek pētīts, kā ar darba autores izstrādāto 4 līmeņu datu analīzes pieeju tiek meklētas un skaidrotas atšķirības (pazīmju “paraksts”) starp pētāmajām kohortām – kontroles un apendektomijas grupu zarnu mikrobioma datos. Šo datu specifiskās īpašības ir datu kompozicionalitāte, datu skrajums, daudzimensionalitāte un taksonomiskā hierarhija. Izstrādātā pieeja ietver secīgu metožu validāciju: tiek veikta klasifikācija uz noteikta hierarhiskās taksonomijas līmeņa un 5 pazīmju sastopamības atfiltrācijas sliekšņu (1%, 5%, 10%, 30% un 50%) sabalansētām apakškopām, kam seko pamatklasterēšana un apakšklasterēšana (iedalot pēc grupām) uz tām pašām, taču nesabalansētām apakškopām. Noslēgumā tiek pielietota biomarķieru noteikšanas metode uz visas taksonomiskās hierarhijas datu kopas, un dimensiju samazināšanas vizualizācija uz atlasītajiem biomarķieriem.
Izstrādātā pieeja pierādīja, ka ne ar vienu no datu analīzēm nav iespējas atrast pazīmes, kas nodalītu pētāmās kohortas. Klasifikācijas modeļi – lēmumu koks, gadījuma mežs, ekstrēmi gadījuma koki, AdaBoost, K-tuvāko kaimiņu metode un atbalsta vektoru mašīnas – visos eksperimentos lielākoties uzrādīja zemu prognozēšanas veiktspēju ap 50% pēc AUC, kopējās precizitātes, jutīguma, specifiskuma, pozitīvo prognožu precizitātes un F1 rādītāja. Klasterēšanas modeļi – K-vidējo un hierarhiskā klasterēšana nesasegmentēja nevienu kohortām specifisku grupu, ko apliecina gan pacientu ierakstu sadalījums, gan Silueta koeficienti. Biomarķieru noteikšanas metode LEfSe uzrādīja, ka nozīmīgākas pazīmes abām grupām atrodas atšķirīgos taksonomijas koka līmeņos, un galveno komponenšu analīzes vizualizācija apstiprināja izteiktu kohortu datu pārklāšanos.
Atslēgvārdi – zarnu mikrobioma datu īpašības, pārraudzītā un nepārraudzītā mašīnmācīšanās, biomarķieru identificēšana.
Dati par darba apjomu – X lappušu, 36 attēlu, 16 tabulu, 22 izmantoto informācijas avotu. |