| Abstract |
Teksta datu klasifikācija un klasterizācija ir būtiskas metodes mūsdienu datu
zinātnē, kas ļauj apstrādāt lielus nestrukturētu datu apjomus un iegūt no tiem vērtīgu
informāciju. Darbā aplūkoti populārākie teksta datu klasifikācijas un klasterizācijas
algoritmi, to īpatnības, priekšrocības un trūkumi.
Bakalaura darba mērķis ir izpētīt un salīdzināt dažādus klasifikācijas un
klasterizācijas algoritmus, kas tiek izmantoti teksta datu apstrādē, lai noteiktu to
efektivitāti dažādu uzdevumu kontekstā. Darba ietvaros veikta literatūras izpēte, teksta
datu priekšapstrāde, implementēti klasifikācijas un klasterizācijas algoritmi, kā arī
veikts to salīdzinošais novērtējums, pamatojoties uz precizitāti un pielāgojamību
konkrētiem teksta kopu tipiem.
Praktiskajā daļā veikta dažādu reprezentācijas metožu - Bag of Words, TF-IDF,
Word2Vec, GloVe un FastText - izmantošana, kā arī klasifikatoru piemērošana (Naive
Bayes, SVM, kNN, nejaušie meži, LSTM, CNN). Klasterizācijai izmantotas tādas
metodes kā K-means, hierarhiskā un fuzzy C-means. Algoritmi salīdzināti pēc
veiktspējas trīs uzdevumos klasifikācijā un divos klasterizācijā.
Darba rezultāti var būt noderīgi datu analītiķiem, mašīnmācīšanās inženieriem
un citiem IT jomas speciālistiem, kuri strādā ar teksta datu analīzi un to automatizāciju.
Darba apjoms - 55 lpp., 9 tabulas, 31 attēli, 0 pielikumi. |