Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Jēdzientelpu veidošanas metodes latviešu valodā
Nosaukums angļu valodā Word Embedding Methods for the Latvian Language
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Gints Jēkabsons
Recenzents V.Saulespurēns, M.sc.comp., Latvijas Nacionālās bibliotēkas lietojumsistēmu administrators
Anotācija Bakalaura darbs veidots pēc 1. tipa vadlīnijām - moderno risinājumu izpēte. Nesen veiktajos zinātniskajos pētījumos, dabiskās valodas apstrādes nozarē, ir izrādīta interese par konkrētu valodu jēdzientelpu priekšapmācību, lai tās varētu izmantot dabiskās valodas apstrādes uzdevumu risinājumos. Taču ir maz pētījumu, kas veltīti latviešu valodai, kura ir morfoloģiski sarežģītāka nekā angļu valoda, un to pētījumu rezultātu loks ir šaurs. Šajā bakalaura darbā tika veikti vairāki eksperimenti dažādos dabiskās valodas apstrādes uzdevumos ar dažādām jēdzientelpu izveides metodēm – word2vec, fastText, Structured Skip-Gram, ngram2vec -, variējot vairākus faktorus un nonākot pie rezultātiem, kas var kalpot kā bāzlīnija turpmākajos dabiskās valodas apstrādes pētījumos latviešu valodā. Galvenie secinājumi ir, pirmkārt, fastText metode sniedz vislabākos rezultātus analoģijas uzdevumā un labākus vai līdzvērtīgus rezultātus morfoloģiskās marķēšanas un nosaukto entitāšu marķēšanas uzdevumos. Un, otrkārt, lemmatizētu korpusu jēdzientelpas sniedz sliktākus vai līdzvērtīgus rezultātus kā nelemmatizēta korpusa jēdzientelpas. Bakalaura darbs sastāv no 5 nodaļām un nobeiguma. Darbā ir 53 lapas teksta, 12 attēli, 26 tabulas un 36 bibliogrāfijas avoti.
Atslēgas vārdi jēdzientelpa, latviešu valoda, dabiskās valodas apstrāde, morfoloģiskā marķēšana, nosaukto entitāšu marķēšana, analoģijas uzdevums
Atslēgas vārdi angļu valodā word embeddings, Latvian language, natural language processing, part-of-speech tagging, named entity recognition, analogy task
Valoda lv
Gads 2021
Darba augšupielādes datums un laiks 24.05.2021 15:34:35