Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language Jēdzientelpu veidošanas metodes latviešu valodā
Title in English Word Embedding Methods for the Latvian Language
Department 12300 Institute of Applied Computer Systems
Scientific advisor Gints Jēkabsons
Reviewer V.Saulespurēns, M.sc.comp., Latvijas Nacionālās bibliotēkas lietojumsistēmu administrators
Abstract Bakalaura darbs veidots pēc 1. tipa vadlīnijām - moderno risinājumu izpēte. Nesen veiktajos zinātniskajos pētījumos, dabiskās valodas apstrādes nozarē, ir izrādīta interese par konkrētu valodu jēdzientelpu priekšapmācību, lai tās varētu izmantot dabiskās valodas apstrādes uzdevumu risinājumos. Taču ir maz pētījumu, kas veltīti latviešu valodai, kura ir morfoloģiski sarežģītāka nekā angļu valoda, un to pētījumu rezultātu loks ir šaurs. Šajā bakalaura darbā tika veikti vairāki eksperimenti dažādos dabiskās valodas apstrādes uzdevumos ar dažādām jēdzientelpu izveides metodēm – word2vec, fastText, Structured Skip-Gram, ngram2vec -, variējot vairākus faktorus un nonākot pie rezultātiem, kas var kalpot kā bāzlīnija turpmākajos dabiskās valodas apstrādes pētījumos latviešu valodā. Galvenie secinājumi ir, pirmkārt, fastText metode sniedz vislabākos rezultātus analoģijas uzdevumā un labākus vai līdzvērtīgus rezultātus morfoloģiskās marķēšanas un nosaukto entitāšu marķēšanas uzdevumos. Un, otrkārt, lemmatizētu korpusu jēdzientelpas sniedz sliktākus vai līdzvērtīgus rezultātus kā nelemmatizēta korpusa jēdzientelpas. Bakalaura darbs sastāv no 5 nodaļām un nobeiguma. Darbā ir 53 lapas teksta, 12 attēli, 26 tabulas un 36 bibliogrāfijas avoti.
Keywords jēdzientelpa, latviešu valoda, dabiskās valodas apstrāde, morfoloģiskā marķēšana, nosaukto entitāšu marķēšana, analoģijas uzdevums
Keywords in English word embeddings, Latvian language, natural language processing, part-of-speech tagging, named entity recognition, analogy task
Language lv
Year 2021
Date and time of uploading 24.05.2021 15:34:35