Form of studies |
Bachelor |
Title of the study programm |
Information Technology |
Title in original language |
Mašīnmācīšanās metožu pielietošanas iespēju izpēte un analīze dokumentu klasifikācijas uzdevumos |
Title in English |
Research and Analysis of Applications of Machine Learning Methods in Document Classification Tasks |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
Sergejs Paršutins |
Reviewer |
Pēteris Grabusts |
Abstract |
Šis darbs veltīts mašīnmācīšanās algoritmu pielietošanas iespēju izpētei
dokumentu klasifikācijas uzdevumos. Darba ietvaros tika aprakstītas vispopulārākās
priekšapstrādes metodes dokumentu sagatavošanai klasifikācijas procesam, kā arī tika
atlasīti un aprakstīti trīs vispopulārākie algoritmi dokumentu klasifikācijai: k-tuvāko
kaimiņu algoritms (klasiskais variants, kā arī variants ar svariem), naivais Beijesa
algoritms (ieskaitot Bernulli modeli un multinomiālo modeli), kā arī atbalsta vektoru
metode. Arī tika veikti eksperimenti, lai noteiktu vektoru izveidošanas metodes un
priekšapstrādes procesu secību ietekmi uz klasifikācijas rezultātiem. Testēšanai tika
izmantota dokumentu kolekcija, kas tika iegūta no Latvijas uzņēmuma. Visi
klasifikācijas algoritmi tika pārbaudīti, izmantojot šķērsvalidācijas metodi.
Eksperimentu rezultāti parādīja, ka visprecīzākais algoritms ir naiva Beijesa algoritma
multinomiālais modelis, kurš tika apmācīts, izmantojot vektorus, kuri tika sastādīti
vārdu biežumiem. Darba pamattekstā ir 51 lappuse, 23 attēli, 7 tabulas, 36 informācijas avoti un 6 pielikumi. |
Keywords |
dabiskās valodas apstrāde, klasifikācija, mašīnmācīšanās algoritmi |
Keywords in English |
natural language processing, classification, machine learning algorithms |
Language |
lv |
Year |
2022 |
Date and time of uploading |
30.05.2022 19:49:23 |