Datizraces metožu lietošana rezistences gēnu īpatsvaru izmaiņu analīzei pirms un pēc antibiotiku lietošanas

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Informācijas tehnoloģija
Nosaukums	Datizraces metožu lietošana rezistences gēnu īpatsvaru izmaiņu analīzei pirms un pēc antibiotiku lietošanas
Nosaukums angļu valodā	Application of Data Mining Methods in Analysis of Resistance Gene Abundance Changes Before and After Antibiotic Use
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Inese Poļaka
Recenzents	Dr. sc. ing. Sigita Misiņa
Anotācija	Mūsdienās daudz laika un uzmanības ir veltīts dažādu organismu gēnu izpētei, piemēram, baktēriju rezistences pret antibiotikām, kuru dēļ antibiotikas nespēj nogalināt baktērijas, lai izārstētu slimības. Bakalaura darbā pētītas antibiotiku rezistences gēnu īpatsvaru izmaiņas pirms un pēc antibiotiku lietošanas, izmantojot datizraces metodes. Veicot literatūras apskatu, apkopota informācija par laika periodu no 1990. līdz 2020. gadam, izmantojot datu bāzes ScienceDirect, Google Scholar, Scopus, kā arī Interneta datu bāzes. Lai sasniegtu mērķi, vispirms tika sagatavoti dati, koda rakstīšanai tika izmantota programmatūra IntelliJ IDEA Community Edition 2020.3.1 x64. Datu analīzei izmantotas programmas Weka un Orange, izmantojot klasterizācijas (hierarhiskā un k-vidējā) un klasifikācijas metodes (k-tuvākie kaimiņi, lēmumu koki, likumu indukcijas algoritmi, Naivā Baiesa metode, neironu tīkli, loģistiskā regresija). Analīzes gaitā hierarhiskajā klasterizācijā tika izmantoti trīs veidu attāluma aprēķini un dažādu veidu savienojumi. Analīzē tika ne vien mainīti atsevišķi parametri vairākiem algoritmiem, lai apskatītu, kā mainās precizitāte, bet arī katram jaunam eksperimentam veiktas dažādas izmaiņas, piemēram, informācijas lasīšana, z-score normalizācijas pievienošana, jaunu metožu pievienošana, kā arī datu apjoma palielināšana. Rezultātā, izmantojot klasterizāciju un klasifikāciju, tika identificēti divi algoritmu modeļi kā k tuvāko kaimiņu algoritms, kas parādīja visaugstāko precizitāti, atpazīstot atšķirību starp klasēm, un heiristiskā klasterizācija, izmantojot Pīrsona korelācijas attālumu. Pamatojoties uz datu modifikācijām un jaunu metožu ieviešanu, kā arī izmaiņām algoritmu parametros, izmantotās metodes un pieejas nav atbilstošas eksperimentālajiem datiem. Tāpēc ir nepieciešams izmantot sarežģītākus modeļus, atrast katra algoritma parametru optimālās vērtības, kas spēj atpazīt sarežģītas attiecības starp dažāda lieluma datiem.
Atslēgas vārdi	datizrace, klasifikācija, klasterizācija, baktēriju rezistences gēni
Atslēgas vārdi angļu valodā	data mining, classification, clustering, bacterial resistance genes
Valoda	lv
Gads	2021
Darba augšupielādes datums un laiks	31.05.2021 20:30:03