Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Information Technology
Title in original language Datizraces algoritmu lietojums pacientu anketēšanas rezultātu analīzē
Title in English Data Mining Algorithm Application in Patients Survey Results Analysis
Department 12100 Institute of Information Technology
Scientific advisor Dr. sc. ing. Arnis Kiršners
Reviewer Dr. sc. ing. Jurijs Korņijenko
Abstract Ik dienu ļaundabīgi audzēji tiek diagnosticēti arvien jauniem pacientiem. Līdz ar to ir nepieciešams veikt vēžrades riska faktoru analīzi, lai spētu informēt cilvēkus un, iespējams, samazināt slimnieku skaitu nākotnē. Darba mērķis ir izmantot datizraces algoritmus vēžrades riska faktoru analīzei. Darbā ir izmantota aptaujas anketa ar reāliem pacientu datiem, kuri ir apkopoti datu kopā. Darba mērķa sasniegšanai tiek veikti vairāki uzdevumi. Sākotnējai datu kopai tiek veikta datu pirmapstrāde, attīrot to no trūkstošajiem datiem un datiem, kuri dublicējas, veicot gan datu normalizāciju, gan datu diskretizāciju, kā arī samazinot datu kopu, noņemot neinformatīvos atribūtus. Tiek izveidotas divas datu kopas – Eiken un Biohit, kur katrā no tām ir atšķirīgas analīzes vēžrades riska noteikšanai. Datu apstrādei tiek izmantota programmatūra R un tās integrētā izstrādes vide RStudio, kā arī trīs klasifikācijas algoritmi – naivais Baijesa, k-tuvāko kaimiņu un C4.5 algoritms. Veicot eksperimentus tiek noteikts, ka piemērotākais algoritms vēžrades risku izpētei ir C4.5 algoritms, kas veic savu darbību Eiken datu kopai ar precizitāti 86,5%, bet Biohit datu kopai ar 81,9% precizitāti. C4.5 arī ir vienīgais algoritms, kura darbība var tikt uzskatīta par pietiekami precīzu, lai pacientiem, aizpildot datus par sevi, būtu iespējams uzzināt, kurai riska klasei tie pieder, un, vai ir nepieciešams veikt tālākus izmeklējumus. Darba apjoms - 55. lpp., 8 tabulas, 28 attēli un 6 pielikumi.
Keywords Kuņģa vēzis, aptaujas anketa, datizrace, datu pirmapstrāde, klasifikācijas algoritmi
Keywords in English Gastric cancer, questionnaire, data mining, data pre-processing, classification algorithms
Language lv
Year 2017
Date and time of uploading 01.06.2017 19:48:36