Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Saknēšanas un lemmatizācijas algoritmu salīdzinājums teksta normalizācijā latviešu valodas tekstu apstrādei
Nosaukums angļu valodā Comparison of Stemming and Lemmatization Algorithms in Text Normalization for Processing Latvian Text
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Valdis Saulespurēns
Recenzents Mārtiņš Ekmanis
Anotācija Mūsdienās strauji attīstoties mākslīgajam intelektam aktuāla palikusi dabīgās valodas apstrāde. Angļu valodā tā ir dziļi izpētīta, taču latviešu valodā tā ir vēl dziļi neizpētītā. Un viena svarīga joma dabīgās valodas apstrādē ir teksta normalizācija. Tas ir process, kas pārvērš tekstu normālformā ar dažādām darbībām, piemēram, saknēšanu vai lemmatizāciju. Bakalaura darbs ir veltīts saknēšanas un lemmatizācijas algoritmu un rīku izpētīšanai un salīdzināšanai. Darbā tiek veikta latviešu valodas tekstu saknēšana un lemmatizācija ar dažādiem saknēšanas un lemmatizācijas algoritmiem un rīkiem, kuri tikuši izvēlēti pētījumā, tiek aprēķināts izpildes laiks un noteikta rezultātu precizitāte. Rezultātā tiek veikti secinājumi par izvēlētajiem algoritmiem un rīkiem, noteikts ātrākais izpildes laiks un aprēķināta rezultāta precizitāte, kas tiek balstīta uz pieejamiem latviešu valodas resursiem. Darba pamattekstā ir 51 lapaspuse, 14 attēli, 10 tabulas, 3 pielikumi un 47 izmantotie informācijas avoti.
Atslēgas vārdi Saknēšana, lemmatizācija, normalizācija, tokenizācija, dabiskās valodas apstrāde, POS (runas daļa)
Atslēgas vārdi angļu valodā Stemming, Lemmatization, Normalization, Tokenization, Natural Language Processing, POS (part-of-speech)
Valoda lv
Gads 2024
Darba augšupielādes datums un laiks 28.05.2024 12:16:01