Studiju veids |
bakalaura akadēmiskās studijas |
Studiju programmas nosaukums |
Datorsistēmas |
Nosaukums |
Saknēšanas un lemmatizācijas algoritmu salīdzinājums teksta normalizācijā latviešu valodas tekstu apstrādei |
Nosaukums angļu valodā |
Comparison of Stemming and Lemmatization Algorithms in Text Normalization for Processing Latvian Text |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
Valdis Saulespurēns |
Recenzents |
Mārtiņš Ekmanis |
Anotācija |
Mūsdienās strauji attīstoties mākslīgajam intelektam aktuāla palikusi dabīgās
valodas apstrāde. Angļu valodā tā ir dziļi izpētīta, taču latviešu valodā tā ir vēl dziļi
neizpētītā. Un viena svarīga joma dabīgās valodas apstrādē ir teksta normalizācija. Tas ir
process, kas pārvērš tekstu normālformā ar dažādām darbībām, piemēram, saknēšanu vai
lemmatizāciju.
Bakalaura darbs ir veltīts saknēšanas un lemmatizācijas algoritmu un rīku
izpētīšanai un salīdzināšanai. Darbā tiek veikta latviešu valodas tekstu saknēšana un
lemmatizācija ar dažādiem saknēšanas un lemmatizācijas algoritmiem un rīkiem, kuri
tikuši izvēlēti pētījumā, tiek aprēķināts izpildes laiks un noteikta rezultātu precizitāte.
Rezultātā tiek veikti secinājumi par izvēlētajiem algoritmiem un rīkiem, noteikts ātrākais
izpildes laiks un aprēķināta rezultāta precizitāte, kas tiek balstīta uz pieejamiem latviešu
valodas resursiem.
Darba pamattekstā ir 51 lapaspuse, 14 attēli, 10 tabulas, 3 pielikumi un
47 izmantotie informācijas avoti. |
Atslēgas vārdi |
Saknēšana, lemmatizācija, normalizācija, tokenizācija, dabiskās valodas apstrāde, POS (runas daļa) |
Atslēgas vārdi angļu valodā |
Stemming, Lemmatization, Normalization, Tokenization, Natural Language Processing, POS (part-of-speech) |
Valoda |
lv |
Gads |
2024 |
Darba augšupielādes datums un laiks |
28.05.2024 12:16:01 |