Mašīnmācīšanās metožu pielietošanas iespēju izpēte un analīze dokumentu klasifikācijas uzdevumos

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Informācijas tehnoloģija
Nosaukums	Mašīnmācīšanās metožu pielietošanas iespēju izpēte un analīze dokumentu klasifikācijas uzdevumos
Nosaukums angļu valodā	Research and Analysis of Applications of Machine Learning Methods in Document Classification Tasks
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Sergejs Paršutins
Recenzents	Pēteris Grabusts
Anotācija	Šis darbs veltīts mašīnmācīšanās algoritmu pielietošanas iespēju izpētei dokumentu klasifikācijas uzdevumos. Darba ietvaros tika aprakstītas vispopulārākās priekšapstrādes metodes dokumentu sagatavošanai klasifikācijas procesam, kā arī tika atlasīti un aprakstīti trīs vispopulārākie algoritmi dokumentu klasifikācijai: k-tuvāko kaimiņu algoritms (klasiskais variants, kā arī variants ar svariem), naivais Beijesa algoritms (ieskaitot Bernulli modeli un multinomiālo modeli), kā arī atbalsta vektoru metode. Arī tika veikti eksperimenti, lai noteiktu vektoru izveidošanas metodes un priekšapstrādes procesu secību ietekmi uz klasifikācijas rezultātiem. Testēšanai tika izmantota dokumentu kolekcija, kas tika iegūta no Latvijas uzņēmuma. Visi klasifikācijas algoritmi tika pārbaudīti, izmantojot šķērsvalidācijas metodi. Eksperimentu rezultāti parādīja, ka visprecīzākais algoritms ir naiva Beijesa algoritma multinomiālais modelis, kurš tika apmācīts, izmantojot vektorus, kuri tika sastādīti vārdu biežumiem. Darba pamattekstā ir 51 lappuse, 23 attēli, 7 tabulas, 36 informācijas avoti un 6 pielikumi.
Atslēgas vārdi	dabiskās valodas apstrāde, klasifikācija, mašīnmācīšanās algoritmi
Atslēgas vārdi angļu valodā	natural language processing, classification, machine learning algorithms
Valoda	lv
Gads	2022
Darba augšupielādes datums un laiks	30.05.2022 19:49:23