Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Information Technology
Title in original language Datizraces metožu lietošana rezistences gēnu īpatsvaru izmaiņu analīzei pirms un pēc antibiotiku lietošanas
Title in English Application of Data Mining Methods in Analysis of Resistance Gene Abundance Changes Before and After Antibiotic Use
Department 12100 Institute of Information Technology
Scientific advisor Inese Poļaka
Reviewer Dr. sc. ing. Sigita Misiņa
Abstract Mūsdienās daudz laika un uzmanības ir veltīts dažādu organismu gēnu izpētei, piemēram, baktēriju rezistences pret antibiotikām, kuru dēļ antibiotikas nespēj nogalināt baktērijas, lai izārstētu slimības. Bakalaura darbā pētītas antibiotiku rezistences gēnu īpatsvaru izmaiņas pirms un pēc antibiotiku lietošanas, izmantojot datizraces metodes. Veicot literatūras apskatu, apkopota informācija par laika periodu no 1990. līdz 2020. gadam, izmantojot datu bāzes ScienceDirect, Google Scholar, Scopus, kā arī Interneta datu bāzes. Lai sasniegtu mērķi, vispirms tika sagatavoti dati, koda rakstīšanai tika izmantota programmatūra IntelliJ IDEA Community Edition 2020.3.1 x64. Datu analīzei izmantotas programmas Weka un Orange, izmantojot klasterizācijas (hierarhiskā un k-vidējā) un klasifikācijas metodes (k-tuvākie kaimiņi, lēmumu koki, likumu indukcijas algoritmi, Naivā Baiesa metode, neironu tīkli, loģistiskā regresija). Analīzes gaitā hierarhiskajā klasterizācijā tika izmantoti trīs veidu attāluma aprēķini un dažādu veidu savienojumi. Analīzē tika ne vien mainīti atsevišķi parametri vairākiem algoritmiem, lai apskatītu, kā mainās precizitāte, bet arī katram jaunam eksperimentam veiktas dažādas izmaiņas, piemēram, informācijas lasīšana, z-score normalizācijas pievienošana, jaunu metožu pievienošana, kā arī datu apjoma palielināšana. Rezultātā, izmantojot klasterizāciju un klasifikāciju, tika identificēti divi algoritmu modeļi kā k tuvāko kaimiņu algoritms, kas parādīja visaugstāko precizitāti, atpazīstot atšķirību starp klasēm, un heiristiskā klasterizācija, izmantojot Pīrsona korelācijas attālumu. Pamatojoties uz datu modifikācijām un jaunu metožu ieviešanu, kā arī izmaiņām algoritmu parametros, izmantotās metodes un pieejas nav atbilstošas eksperimentālajiem datiem. Tāpēc ir nepieciešams izmantot sarežģītākus modeļus, atrast katra algoritma parametru optimālās vērtības, kas spēj atpazīt sarežģītas attiecības starp dažāda lieluma datiem.
Keywords datizrace, klasifikācija, klasterizācija, baktēriju rezistences gēni
Keywords in English data mining, classification, clustering, bacterial resistance genes
Language lv
Year 2021
Date and time of uploading 31.05.2021 20:30:03