Abstract |
Mūsdienās daudz laika un uzmanības ir veltīts dažādu organismu gēnu izpētei,
piemēram, baktēriju rezistences pret antibiotikām, kuru dēļ antibiotikas nespēj nogalināt
baktērijas, lai izārstētu slimības. Bakalaura darbā pētītas antibiotiku rezistences gēnu
īpatsvaru izmaiņas pirms un pēc antibiotiku lietošanas, izmantojot datizraces metodes. Veicot literatūras apskatu, apkopota informācija par laika periodu no 1990. līdz 2020. gadam, izmantojot datu bāzes ScienceDirect, Google Scholar, Scopus, kā arī Interneta datu bāzes. Lai sasniegtu mērķi, vispirms tika sagatavoti dati, koda rakstīšanai tika izmantota programmatūra IntelliJ IDEA Community Edition 2020.3.1 x64. Datu analīzei izmantotas programmas Weka un Orange, izmantojot klasterizācijas (hierarhiskā un k-vidējā) un klasifikācijas metodes (k-tuvākie kaimiņi, lēmumu koki, likumu indukcijas algoritmi, Naivā Baiesa metode, neironu tīkli, loģistiskā regresija). Analīzes gaitā hierarhiskajā klasterizācijā tika izmantoti trīs veidu attāluma aprēķini un dažādu veidu savienojumi. Analīzē tika ne vien mainīti atsevišķi parametri vairākiem algoritmiem, lai apskatītu, kā mainās precizitāte, bet arī katram jaunam eksperimentam veiktas dažādas izmaiņas, piemēram, informācijas lasīšana, z-score normalizācijas pievienošana, jaunu metožu pievienošana, kā arī datu apjoma palielināšana.
Rezultātā, izmantojot klasterizāciju un klasifikāciju, tika identificēti divi algoritmu modeļi kā k tuvāko kaimiņu algoritms, kas parādīja visaugstāko precizitāti, atpazīstot atšķirību starp klasēm, un heiristiskā klasterizācija, izmantojot Pīrsona korelācijas attālumu. Pamatojoties uz datu modifikācijām un jaunu metožu ieviešanu, kā arī izmaiņām algoritmu parametros, izmantotās metodes un pieejas nav atbilstošas eksperimentālajiem datiem. Tāpēc ir nepieciešams izmantot sarežģītākus modeļus, atrast katra algoritma parametru optimālās vērtības, kas spēj atpazīt sarežģītas attiecības starp dažāda lieluma datiem. |