Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Information Technology
Title in original language Teksta datu klasifikācijas un klasteru atklāšanas algoritmu apskats
Title in English Review of Algorithms for Text Data Classification and Clustering
Department Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor Henrihs Gorskis
Reviewer Pēteris Grabusts
Abstract Teksta datu klasifikācija un klasterizācija ir būtiskas metodes mūsdienu datu zinātnē, kas ļauj apstrādāt lielus nestrukturētu datu apjomus un iegūt no tiem vērtīgu informāciju. Darbā aplūkoti populārākie teksta datu klasifikācijas un klasterizācijas algoritmi, to īpatnības, priekšrocības un trūkumi. Bakalaura darba mērķis ir izpētīt un salīdzināt dažādus klasifikācijas un klasterizācijas algoritmus, kas tiek izmantoti teksta datu apstrādē, lai noteiktu to efektivitāti dažādu uzdevumu kontekstā. Darba ietvaros veikta literatūras izpēte, teksta datu priekšapstrāde, implementēti klasifikācijas un klasterizācijas algoritmi, kā arī veikts to salīdzinošais novērtējums, pamatojoties uz precizitāti un pielāgojamību konkrētiem teksta kopu tipiem. Praktiskajā daļā veikta dažādu reprezentācijas metožu - Bag of Words, TF-IDF, Word2Vec, GloVe un FastText - izmantošana, kā arī klasifikatoru piemērošana (Naive Bayes, SVM, kNN, nejaušie meži, LSTM, CNN). Klasterizācijai izmantotas tādas metodes kā K-means, hierarhiskā un fuzzy C-means. Algoritmi salīdzināti pēc veiktspējas trīs uzdevumos klasifikācijā un divos klasterizācijā. Darba rezultāti var būt noderīgi datu analītiķiem, mašīnmācīšanās inženieriem un citiem IT jomas speciālistiem, kuri strādā ar teksta datu analīzi un to automatizāciju. Darba apjoms - 55 lpp., 9 tabulas, 31 attēli, 0 pielikumi.
Keywords teksta klasifikācija, teksta klasterizācija, dabiskās valodas apstrāde, teksta reprezentācija, vārdlietojuma kartējums
Keywords in English text data classification, text clustering, natural language processing, text representation, word embedding
Language lv
Year 2025
Date and time of uploading 26.05.2025 13:12:29