Bilingual Corpora Alignment for Morphologically Rich Languages

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Professional Master
Title of the study programm	Computer Systems
Title in original language	Bilingvālu korpusu sastatīšana morfoloģiski bagātām valodām
Title in English	Bilingual Corpora Alignment for Morphologically Rich Languages
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Gints Jēkabsons
Reviewer	Raivis Skadiņš, Dr.sc.comp., SIA “Tilde” Pētījumu un izstrādes direktors
Abstract	Šis darbs ir veltīts paralēlu korpusu iegūšanai no bilingvāliem korpusiem. Līdz šim ir izstrādāti vairāki bilingvālu korpusu sastatīšanas algoritmi, taču, prezentējot savus rezultātus, kā vienu no korpusu valodām algoritmu autori parasti vienmēr ir izvēlējušies angļu valodu. Tomēr tajā nav daudz vārdformu, t.i., tā nav morfoloģiski bagāta. Šajā darbā tiek aplūkota tādu valodu korpusu sastatīšana, kurā abas valodas ir morfoloģiski bagātas, lai pārliecinātos par algoritmu piemērotību arī šādām valodām. Lai sasniegtu šo mērķi, vispirms tika izpētīti vairāki bilingvālu korpusu sastatīšanas algoritmi, kā arī izpētītas šo algoritmu implementācijas dažādos rīkos, tai skaitā neironu tīkla izmantošanas iespējas. Pēc tam tika veikta eksperimentos izmantojamo rīku atlase, kompilēšana no pirmkoda, ja nepieciešams, un papildu programmatūras izstrāde, lai šos rīkus varētu lietot praktiski, pēc unificēta scenārija, kā arī veikt korpusu sastatījuma kvalitātes mērījumus. Kā sastatāmais bilingvālais korpuss tika izmantots Rīgas pašvaldības portāla Rīga.lv ziņu publikāciju korpuss latviešu un krievu valodā, kas ir morfoloģiski bagātas valodas. Šajā korpusā bija savākti aptuveni 4000 publikāciju pāri, kuros bija aptuveni 86,5 tūkstoši teikumu latviešu valodā un aptuveni 89 tūkstoši teikumu krievu valodā. Manuāli izveidotā sastatījuma kvalitātes novērtēšanas etalonkopā tika iekļauti 1200 unikāli teikumu pāri. Eksperimenti tika veikti gan ar nemodificētu bilingvālo korpusu, gan vārdu celmos un rakstzīmju n-grammās pārveidotu korpusu. Šajos eksperimentos tika mērīta un salīdzināta algoritmu ātrdarbība, kā arī sastatījuma kvalitāte. Tika noteikts visprecīzākais un visātrākais algoritms, kā arī secināts, ka jāturpina pētījumi gan esošo un realizēto algoritmu uzlabošanā, gan neironu tīkla izmantošanā, lai no bilingvāliem korpusiem varētu iegūt kvalitatīvākus paralēlos korpusus. Dokumentā ir 58 lappuses, 14 attēli, 14 tabulas, un 24 informācijas avoti.
Keywords	dabīgās valodas apstrāde, bilingvāli korpusi, paralēli korpusi, korpusu sastatīšana, morfoloģiski bagātas valodas, rakstzīmju n-grammas, celmošana, neironu tīkli, teksta vektorizēšana, precizitāte, pārklājums, F1
Keywords in English	natural language processing, bilingual corpora, parallel corpora, corpora alignment, morfologically rich languages, character n-grams, stemming, neural networks, text vectorization, accuracy, recall, F1
Language	lv
Year	2019
Date and time of uploading	13.01.2019 15:27:52