Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids maģistra profesionālās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Bilingvālu korpusu sastatīšana morfoloģiski bagātām valodām
Nosaukums angļu valodā Bilingual Corpora Alignment for Morphologically Rich Languages
Struktūrvienība 12300 Lietišķo datorsistēmu institūts
Darba vadītājs Gints Jēkabsons
Recenzents Raivis Skadiņš, Dr.sc.comp., SIA “Tilde” Pētījumu un izstrādes direktors
Anotācija Šis darbs ir veltīts paralēlu korpusu iegūšanai no bilingvāliem korpusiem. Līdz šim ir izstrādāti vairāki bilingvālu korpusu sastatīšanas algoritmi, taču, prezentējot savus rezultātus, kā vienu no korpusu valodām algoritmu autori parasti vienmēr ir izvēlējušies angļu valodu. Tomēr tajā nav daudz vārdformu, t.i., tā nav morfoloģiski bagāta. Šajā darbā tiek aplūkota tādu valodu korpusu sastatīšana, kurā abas valodas ir morfoloģiski bagātas, lai pārliecinātos par algoritmu piemērotību arī šādām valodām. Lai sasniegtu šo mērķi, vispirms tika izpētīti vairāki bilingvālu korpusu sastatīšanas algoritmi, kā arī izpētītas šo algoritmu implementācijas dažādos rīkos, tai skaitā neironu tīkla izmantošanas iespējas. Pēc tam tika veikta eksperimentos izmantojamo rīku atlase, kompilēšana no pirmkoda, ja nepieciešams, un papildu programmatūras izstrāde, lai šos rīkus varētu lietot praktiski, pēc unificēta scenārija, kā arī veikt korpusu sastatījuma kvalitātes mērījumus. Kā sastatāmais bilingvālais korpuss tika izmantots Rīgas pašvaldības portāla Rīga.lv ziņu publikāciju korpuss latviešu un krievu valodā, kas ir morfoloģiski bagātas valodas. Šajā korpusā bija savākti aptuveni 4000 publikāciju pāri, kuros bija aptuveni 86,5 tūkstoši teikumu latviešu valodā un aptuveni 89 tūkstoši teikumu krievu valodā. Manuāli izveidotā sastatījuma kvalitātes novērtēšanas etalonkopā tika iekļauti 1200 unikāli teikumu pāri. Eksperimenti tika veikti gan ar nemodificētu bilingvālo korpusu, gan vārdu celmos un rakstzīmju n-grammās pārveidotu korpusu. Šajos eksperimentos tika mērīta un salīdzināta algoritmu ātrdarbība, kā arī sastatījuma kvalitāte. Tika noteikts visprecīzākais un visātrākais algoritms, kā arī secināts, ka jāturpina pētījumi gan esošo un realizēto algoritmu uzlabošanā, gan neironu tīkla izmantošanā, lai no bilingvāliem korpusiem varētu iegūt kvalitatīvākus paralēlos korpusus. Dokumentā ir 58 lappuses, 14 attēli, 14 tabulas, un 24 informācijas avoti.
Atslēgas vārdi dabīgās valodas apstrāde, bilingvāli korpusi, paralēli korpusi, korpusu sastatīšana, morfoloģiski bagātas valodas, rakstzīmju n-grammas, celmošana, neironu tīkli, teksta vektorizēšana, precizitāte, pārklājums, F1
Atslēgas vārdi angļu valodā natural language processing, bilingual corpora, parallel corpora, corpora alignment, morfologically rich languages, character n-grams, stemming, neural networks, text vectorization, accuracy, recall, F1
Valoda lv
Gads 2019
Darba augšupielādes datums un laiks 13.01.2019 15:27:52