Form of studies |
Professional Master |
Title of the study programm |
Computer Systems |
Title in original language |
Bilingvālu korpusu sastatīšana morfoloģiski bagātām valodām |
Title in English |
Bilingual Corpora Alignment for Morphologically Rich Languages |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
Gints Jēkabsons |
Reviewer |
Raivis Skadiņš, Dr.sc.comp., SIA “Tilde” Pētījumu un izstrādes direktors |
Abstract |
Šis darbs ir veltīts paralēlu korpusu iegūšanai no bilingvāliem korpusiem. Līdz šim ir izstrādāti vairāki bilingvālu korpusu sastatīšanas algoritmi, taču, prezentējot savus rezultātus, kā vienu no korpusu valodām algoritmu autori parasti vienmēr ir izvēlējušies angļu valodu. Tomēr tajā nav daudz vārdformu, t.i., tā nav morfoloģiski bagāta. Šajā darbā tiek aplūkota tādu valodu korpusu sastatīšana, kurā abas valodas ir morfoloģiski bagātas, lai pārliecinātos par algoritmu piemērotību arī šādām valodām.
Lai sasniegtu šo mērķi, vispirms tika izpētīti vairāki bilingvālu korpusu sastatīšanas algoritmi, kā arī izpētītas šo algoritmu implementācijas dažādos rīkos, tai skaitā neironu tīkla izmantošanas iespējas. Pēc tam tika veikta eksperimentos izmantojamo rīku atlase, kompilēšana no pirmkoda, ja nepieciešams, un papildu programmatūras izstrāde, lai šos rīkus varētu lietot praktiski, pēc unificēta scenārija, kā arī veikt korpusu sastatījuma kvalitātes mērījumus.
Kā sastatāmais bilingvālais korpuss tika izmantots Rīgas pašvaldības portāla Rīga.lv ziņu publikāciju korpuss latviešu un krievu valodā, kas ir morfoloģiski bagātas valodas. Šajā korpusā bija savākti aptuveni 4000 publikāciju pāri, kuros bija aptuveni 86,5 tūkstoši teikumu latviešu valodā un aptuveni 89 tūkstoši teikumu krievu valodā. Manuāli izveidotā sastatījuma kvalitātes novērtēšanas etalonkopā tika iekļauti 1200 unikāli teikumu pāri.
Eksperimenti tika veikti gan ar nemodificētu bilingvālo korpusu, gan vārdu celmos un rakstzīmju n-grammās pārveidotu korpusu. Šajos eksperimentos tika mērīta un salīdzināta algoritmu ātrdarbība, kā arī sastatījuma kvalitāte. Tika noteikts visprecīzākais un visātrākais algoritms, kā arī secināts, ka jāturpina pētījumi gan esošo un realizēto algoritmu uzlabošanā, gan neironu tīkla izmantošanā, lai no bilingvāliem korpusiem varētu iegūt kvalitatīvākus paralēlos korpusus.
Dokumentā ir 58 lappuses, 14 attēli, 14 tabulas, un 24 informācijas avoti. |
Keywords |
dabīgās valodas apstrāde, bilingvāli korpusi, paralēli korpusi, korpusu sastatīšana, morfoloģiski bagātas valodas, rakstzīmju n-grammas, celmošana, neironu tīkli, teksta vektorizēšana, precizitāte, pārklājums, F1 |
Keywords in English |
natural language processing, bilingual corpora, parallel corpora, corpora alignment, morfologically rich languages, character n-grams, stemming, neural networks, text vectorization, accuracy, recall, F1 |
Language |
lv |
Year |
2019 |
Date and time of uploading |
13.01.2019 15:27:52 |