Form of studies |
Bachelor |
Title of the study programm |
Computer Systems |
Title in original language |
Saknēšanas un lemmatizācijas algoritmu salīdzinājums teksta normalizācijā latviešu valodas tekstu apstrādei |
Title in English |
Comparison of Stemming and Lemmatization Algorithms in Text Normalization for Processing Latvian Text |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
Valdis Saulespurēns |
Reviewer |
Mārtiņš Ekmanis |
Abstract |
Mūsdienās strauji attīstoties mākslīgajam intelektam aktuāla palikusi dabīgās
valodas apstrāde. Angļu valodā tā ir dziļi izpētīta, taču latviešu valodā tā ir vēl dziļi
neizpētītā. Un viena svarīga joma dabīgās valodas apstrādē ir teksta normalizācija. Tas ir
process, kas pārvērš tekstu normālformā ar dažādām darbībām, piemēram, saknēšanu vai
lemmatizāciju.
Bakalaura darbs ir veltīts saknēšanas un lemmatizācijas algoritmu un rīku
izpētīšanai un salīdzināšanai. Darbā tiek veikta latviešu valodas tekstu saknēšana un
lemmatizācija ar dažādiem saknēšanas un lemmatizācijas algoritmiem un rīkiem, kuri
tikuši izvēlēti pētījumā, tiek aprēķināts izpildes laiks un noteikta rezultātu precizitāte.
Rezultātā tiek veikti secinājumi par izvēlētajiem algoritmiem un rīkiem, noteikts ātrākais
izpildes laiks un aprēķināta rezultāta precizitāte, kas tiek balstīta uz pieejamiem latviešu
valodas resursiem.
Darba pamattekstā ir 51 lapaspuse, 14 attēli, 10 tabulas, 3 pielikumi un
47 izmantotie informācijas avoti. |
Keywords |
Saknēšana, lemmatizācija, normalizācija, tokenizācija, dabiskās valodas apstrāde, POS (runas daļa) |
Keywords in English |
Stemming, Lemmatization, Normalization, Tokenization, Natural Language Processing, POS (part-of-speech) |
Language |
lv |
Year |
2024 |
Date and time of uploading |
28.05.2024 12:16:01 |