Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Informācijas tehnoloģija
Nosaukums Klasifikācijas lietošana kaitīgo ieradumu datu analīzei helikobaktērijas rašanās cēloņu pētīšanā
Nosaukums angļu valodā Analysis of Unhealthy Habits Data with the Help of Classification Methods to Study the Influence on Helikobacter Pylori
Autors Liene Jansone
Struktūrvienība 12100 Informācijas tehnoloģijas institūts
Darba vadītājs Mg. sc. ing. Arnis Kiršners
Recenzents Dr. sc. ing. Aleksandrs Vališevskis
Anotācija Helikobaktērija ir kuņģa baktērija, kas var izraisīt kuņģa vēzi. Tās attīstību veicina vairāki kaitīgie faktori, tāpēc ir svarīgi noteikt saistības starp helikobaktērijas attīstību un kaitīgajiem faktoriem cilvēka dzīvesveidā. Ar datu ieguves metodēm un algoritmiem ir iespējams atrast šīs saistības un iegūt atribūtu kopu, kas varētu ietekmēt helikobaktērijas attīstību. Darba mērķis ir noteikt sakarības starp kaitīgajiem faktoriem un helikobaktērijas attīstību, pielietojot datu klasifikācijas algoritmus. Lai noteiktu helikobaktērijas ietekmējošos faktorus, tiek analizēta literatūra par šīs baktērijas ietekmi uz vēžradi un ar to saistītajiem kaitīgiem faktoriem. No izmantotās datu kopas, projekta „Agrīnas audzēju diagnostikas un novēršanas starpdisciplināra izpētes grupa” datu bāzes, tiek atlasīti vajadzīgie atribūti. Tiek veikti vairāki eksperimenti, kuru mērķis ir iegūt atribūtu kopu, ar kuru ar kādu no klasifikatoriem tiktu iegūts precīzākais rezultāts. Eksperimenti iekļauj datu pirmapstrādi, klasifikācijas algoritmu pielietošanu un rezultātu analizēšanu. Darbā tiek izmantoti trīs klasifikācijas algoritmi: C4.5, CN2 un K – tuvāko kaimiņu algoritmi. Rezultātā tiek iegūta atribūtu kopa no 20 atribūtiem, ar kuru C4.5 algoritms uzrāda precīzākos rezultātus - 68% klasifikatora precizitāti. Iegūtā datu kopa satur gan literatūras analīzē noteiktos kaitīgo faktoru atribūtus, gan norāda uz jauniem atribūtiem, kas varētu ietekmēt helikobaktērijas attīstību- darba vides un fizisko aktivitāšu raksturojošiem atribūtiem. Darba apjoms - 55. lpp., 13 tabulas, 17 attēli un 1 pielikums.
Atslēgas vārdi Datu ieguve, datu pirmapstrāde, datu ieguves programmatūra
Atslēgas vārdi angļu valodā Data mining, data preprocessing, data mining programs
Valoda lv
Gads 2015
Darba augšupielādes datums un laiks 04.06.2015 09:27:00