| Studiju veids |
bakalaura akadēmiskās studijas |
| Studiju programmas nosaukums |
Informācijas tehnoloģija |
| Nosaukums |
Teksta datu klasifikācijas un klasteru atklāšanas algoritmu apskats |
| Nosaukums angļu valodā |
Review of Algorithms for Text Data Classification and Clustering |
| Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
| Darba vadītājs |
Henrihs Gorskis |
| Recenzents |
Pēteris Grabusts |
| Anotācija |
Teksta datu klasifikācija un klasterizācija ir būtiskas metodes mūsdienu datu
zinātnē, kas ļauj apstrādāt lielus nestrukturētu datu apjomus un iegūt no tiem vērtīgu
informāciju. Darbā aplūkoti populārākie teksta datu klasifikācijas un klasterizācijas
algoritmi, to īpatnības, priekšrocības un trūkumi.
Bakalaura darba mērķis ir izpētīt un salīdzināt dažādus klasifikācijas un
klasterizācijas algoritmus, kas tiek izmantoti teksta datu apstrādē, lai noteiktu to
efektivitāti dažādu uzdevumu kontekstā. Darba ietvaros veikta literatūras izpēte, teksta
datu priekšapstrāde, implementēti klasifikācijas un klasterizācijas algoritmi, kā arī
veikts to salīdzinošais novērtējums, pamatojoties uz precizitāti un pielāgojamību
konkrētiem teksta kopu tipiem.
Praktiskajā daļā veikta dažādu reprezentācijas metožu - Bag of Words, TF-IDF,
Word2Vec, GloVe un FastText - izmantošana, kā arī klasifikatoru piemērošana (Naive
Bayes, SVM, kNN, nejaušie meži, LSTM, CNN). Klasterizācijai izmantotas tādas
metodes kā K-means, hierarhiskā un fuzzy C-means. Algoritmi salīdzināti pēc
veiktspējas trīs uzdevumos klasifikācijā un divos klasterizācijā.
Darba rezultāti var būt noderīgi datu analītiķiem, mašīnmācīšanās inženieriem
un citiem IT jomas speciālistiem, kuri strādā ar teksta datu analīzi un to automatizāciju.
Darba apjoms - 55 lpp., 9 tabulas, 31 attēli, 0 pielikumi. |
| Atslēgas vārdi |
teksta klasifikācija, teksta klasterizācija, dabiskās valodas apstrāde, teksta reprezentācija, vārdlietojuma kartējums |
| Atslēgas vārdi angļu valodā |
text data classification, text clustering, natural language processing, text representation, word embedding |
| Valoda |
lv |
| Gads |
2025 |
| Darba augšupielādes datums un laiks |
26.05.2025 13:12:29 |