Studiju veids |
bakalaura akadēmiskās studijas |
Studiju programmas nosaukums |
Informācijas tehnoloģija |
Nosaukums |
Mašīnmācīšanās metožu pielietošanas iespēju izpēte un analīze dokumentu klasifikācijas uzdevumos |
Nosaukums angļu valodā |
Research and Analysis of Applications of Machine Learning Methods in Document Classification Tasks |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
Sergejs Paršutins |
Recenzents |
Pēteris Grabusts |
Anotācija |
Šis darbs veltīts mašīnmācīšanās algoritmu pielietošanas iespēju izpētei
dokumentu klasifikācijas uzdevumos. Darba ietvaros tika aprakstītas vispopulārākās
priekšapstrādes metodes dokumentu sagatavošanai klasifikācijas procesam, kā arī tika
atlasīti un aprakstīti trīs vispopulārākie algoritmi dokumentu klasifikācijai: k-tuvāko
kaimiņu algoritms (klasiskais variants, kā arī variants ar svariem), naivais Beijesa
algoritms (ieskaitot Bernulli modeli un multinomiālo modeli), kā arī atbalsta vektoru
metode. Arī tika veikti eksperimenti, lai noteiktu vektoru izveidošanas metodes un
priekšapstrādes procesu secību ietekmi uz klasifikācijas rezultātiem. Testēšanai tika
izmantota dokumentu kolekcija, kas tika iegūta no Latvijas uzņēmuma. Visi
klasifikācijas algoritmi tika pārbaudīti, izmantojot šķērsvalidācijas metodi.
Eksperimentu rezultāti parādīja, ka visprecīzākais algoritms ir naiva Beijesa algoritma
multinomiālais modelis, kurš tika apmācīts, izmantojot vektorus, kuri tika sastādīti
vārdu biežumiem. Darba pamattekstā ir 51 lappuse, 23 attēli, 7 tabulas, 36 informācijas avoti un 6 pielikumi. |
Atslēgas vārdi |
dabiskās valodas apstrāde, klasifikācija, mašīnmācīšanās algoritmi |
Atslēgas vārdi angļu valodā |
natural language processing, classification, machine learning algorithms |
Valoda |
lv |
Gads |
2022 |
Darba augšupielādes datums un laiks |
30.05.2022 19:49:23 |