Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Informācijas tehnoloģija
Nosaukums Teksta datu klasifikācijas un klasteru atklāšanas algoritmu apskats
Nosaukums angļu valodā Review of Algorithms for Text Data Classification and Clustering
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Henrihs Gorskis
Recenzents Pēteris Grabusts
Anotācija Teksta datu klasifikācija un klasterizācija ir būtiskas metodes mūsdienu datu zinātnē, kas ļauj apstrādāt lielus nestrukturētu datu apjomus un iegūt no tiem vērtīgu informāciju. Darbā aplūkoti populārākie teksta datu klasifikācijas un klasterizācijas algoritmi, to īpatnības, priekšrocības un trūkumi. Bakalaura darba mērķis ir izpētīt un salīdzināt dažādus klasifikācijas un klasterizācijas algoritmus, kas tiek izmantoti teksta datu apstrādē, lai noteiktu to efektivitāti dažādu uzdevumu kontekstā. Darba ietvaros veikta literatūras izpēte, teksta datu priekšapstrāde, implementēti klasifikācijas un klasterizācijas algoritmi, kā arī veikts to salīdzinošais novērtējums, pamatojoties uz precizitāti un pielāgojamību konkrētiem teksta kopu tipiem. Praktiskajā daļā veikta dažādu reprezentācijas metožu - Bag of Words, TF-IDF, Word2Vec, GloVe un FastText - izmantošana, kā arī klasifikatoru piemērošana (Naive Bayes, SVM, kNN, nejaušie meži, LSTM, CNN). Klasterizācijai izmantotas tādas metodes kā K-means, hierarhiskā un fuzzy C-means. Algoritmi salīdzināti pēc veiktspējas trīs uzdevumos klasifikācijā un divos klasterizācijā. Darba rezultāti var būt noderīgi datu analītiķiem, mašīnmācīšanās inženieriem un citiem IT jomas speciālistiem, kuri strādā ar teksta datu analīzi un to automatizāciju. Darba apjoms - 55 lpp., 9 tabulas, 31 attēli, 0 pielikumi.
Atslēgas vārdi teksta klasifikācija, teksta klasterizācija, dabiskās valodas apstrāde, teksta reprezentācija, vārdlietojuma kartējums
Atslēgas vārdi angļu valodā text data classification, text clustering, natural language processing, text representation, word embedding
Valoda lv
Gads 2025
Darba augšupielādes datums un laiks 26.05.2025 13:12:29