Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Information Technology
Title in original language Klasifikācijas lietošana kaitīgo ieradumu datu analīzei helikobaktērijas rašanās cēloņu pētīšanā
Title in English Analysis of Unhealthy Habits Data with the Help of Classification Methods to Study the Influence on Helikobacter Pylori
Author Liene Jansone
Department 12100 Institute of Information Technology
Scientific advisor Mg. sc. ing. Arnis Kiršners
Reviewer Dr. sc. ing. Aleksandrs Vališevskis
Abstract Helikobaktērija ir kuņģa baktērija, kas var izraisīt kuņģa vēzi. Tās attīstību veicina vairāki kaitīgie faktori, tāpēc ir svarīgi noteikt saistības starp helikobaktērijas attīstību un kaitīgajiem faktoriem cilvēka dzīvesveidā. Ar datu ieguves metodēm un algoritmiem ir iespējams atrast šīs saistības un iegūt atribūtu kopu, kas varētu ietekmēt helikobaktērijas attīstību. Darba mērķis ir noteikt sakarības starp kaitīgajiem faktoriem un helikobaktērijas attīstību, pielietojot datu klasifikācijas algoritmus. Lai noteiktu helikobaktērijas ietekmējošos faktorus, tiek analizēta literatūra par šīs baktērijas ietekmi uz vēžradi un ar to saistītajiem kaitīgiem faktoriem. No izmantotās datu kopas, projekta „Agrīnas audzēju diagnostikas un novēršanas starpdisciplināra izpētes grupa” datu bāzes, tiek atlasīti vajadzīgie atribūti. Tiek veikti vairāki eksperimenti, kuru mērķis ir iegūt atribūtu kopu, ar kuru ar kādu no klasifikatoriem tiktu iegūts precīzākais rezultāts. Eksperimenti iekļauj datu pirmapstrādi, klasifikācijas algoritmu pielietošanu un rezultātu analizēšanu. Darbā tiek izmantoti trīs klasifikācijas algoritmi: C4.5, CN2 un K – tuvāko kaimiņu algoritmi. Rezultātā tiek iegūta atribūtu kopa no 20 atribūtiem, ar kuru C4.5 algoritms uzrāda precīzākos rezultātus - 68% klasifikatora precizitāti. Iegūtā datu kopa satur gan literatūras analīzē noteiktos kaitīgo faktoru atribūtus, gan norāda uz jauniem atribūtiem, kas varētu ietekmēt helikobaktērijas attīstību- darba vides un fizisko aktivitāšu raksturojošiem atribūtiem. Darba apjoms - 55. lpp., 13 tabulas, 17 attēli un 1 pielikums.
Keywords Datu ieguve, datu pirmapstrāde, datu ieguves programmatūra
Keywords in English Data mining, data preprocessing, data mining programs
Language lv
Year 2015
Date and time of uploading 04.06.2015 09:27:00