Studiju veids |
bakalaura akadēmiskās studijas |
Studiju programmas nosaukums |
Datorsistēmas |
Nosaukums |
Jēdzientelpu veidošanas metodes latviešu valodā |
Nosaukums angļu valodā |
Word Embedding Methods for the Latvian Language |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
Gints Jēkabsons |
Recenzents |
V.Saulespurēns, M.sc.comp., Latvijas Nacionālās bibliotēkas lietojumsistēmu administrators |
Anotācija |
Bakalaura darbs veidots pēc 1. tipa vadlīnijām - moderno risinājumu izpēte.
Nesen veiktajos zinātniskajos pētījumos, dabiskās valodas apstrādes nozarē, ir izrādīta interese par konkrētu valodu jēdzientelpu priekšapmācību, lai tās varētu izmantot dabiskās valodas apstrādes uzdevumu risinājumos. Taču ir maz pētījumu, kas veltīti latviešu valodai, kura ir morfoloģiski sarežģītāka nekā angļu valoda, un to pētījumu rezultātu loks ir šaurs. Šajā bakalaura darbā tika veikti vairāki eksperimenti dažādos dabiskās valodas apstrādes uzdevumos ar dažādām jēdzientelpu izveides metodēm – word2vec, fastText, Structured Skip-Gram, ngram2vec -, variējot vairākus faktorus un nonākot pie rezultātiem, kas var kalpot kā bāzlīnija turpmākajos dabiskās valodas apstrādes pētījumos latviešu valodā. Galvenie secinājumi ir, pirmkārt, fastText metode sniedz vislabākos rezultātus analoģijas uzdevumā un labākus vai līdzvērtīgus rezultātus morfoloģiskās marķēšanas un nosaukto entitāšu marķēšanas uzdevumos. Un, otrkārt, lemmatizētu korpusu jēdzientelpas sniedz sliktākus vai līdzvērtīgus rezultātus kā nelemmatizēta korpusa jēdzientelpas. Bakalaura darbs sastāv no 5 nodaļām un nobeiguma. Darbā ir 53 lapas teksta, 12 attēli, 26 tabulas un 36 bibliogrāfijas avoti. |
Atslēgas vārdi |
jēdzientelpa, latviešu valoda, dabiskās valodas apstrāde, morfoloģiskā marķēšana, nosaukto entitāšu marķēšana, analoģijas uzdevums |
Atslēgas vārdi angļu valodā |
word embeddings, Latvian language, natural language processing, part-of-speech tagging, named entity recognition, analogy task |
Valoda |
lv |
Gads |
2021 |
Darba augšupielādes datums un laiks |
24.05.2021 15:34:35 |