Bilingvālu korpusu sastatīšana morfoloģiski bagātām valodām

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	maģistra profesionālās studijas
Studiju programmas nosaukums	Datorsistēmas
Nosaukums	Bilingvālu korpusu sastatīšana morfoloģiski bagātām valodām
Nosaukums angļu valodā	Bilingual Corpora Alignment for Morphologically Rich Languages
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Gints Jēkabsons
Recenzents	Raivis Skadiņš, Dr.sc.comp., SIA “Tilde” Pētījumu un izstrādes direktors
Anotācija	Šis darbs ir veltīts paralēlu korpusu iegūšanai no bilingvāliem korpusiem. Līdz šim ir izstrādāti vairāki bilingvālu korpusu sastatīšanas algoritmi, taču, prezentējot savus rezultātus, kā vienu no korpusu valodām algoritmu autori parasti vienmēr ir izvēlējušies angļu valodu. Tomēr tajā nav daudz vārdformu, t.i., tā nav morfoloģiski bagāta. Šajā darbā tiek aplūkota tādu valodu korpusu sastatīšana, kurā abas valodas ir morfoloģiski bagātas, lai pārliecinātos par algoritmu piemērotību arī šādām valodām. Lai sasniegtu šo mērķi, vispirms tika izpētīti vairāki bilingvālu korpusu sastatīšanas algoritmi, kā arī izpētītas šo algoritmu implementācijas dažādos rīkos, tai skaitā neironu tīkla izmantošanas iespējas. Pēc tam tika veikta eksperimentos izmantojamo rīku atlase, kompilēšana no pirmkoda, ja nepieciešams, un papildu programmatūras izstrāde, lai šos rīkus varētu lietot praktiski, pēc unificēta scenārija, kā arī veikt korpusu sastatījuma kvalitātes mērījumus. Kā sastatāmais bilingvālais korpuss tika izmantots Rīgas pašvaldības portāla Rīga.lv ziņu publikāciju korpuss latviešu un krievu valodā, kas ir morfoloģiski bagātas valodas. Šajā korpusā bija savākti aptuveni 4000 publikāciju pāri, kuros bija aptuveni 86,5 tūkstoši teikumu latviešu valodā un aptuveni 89 tūkstoši teikumu krievu valodā. Manuāli izveidotā sastatījuma kvalitātes novērtēšanas etalonkopā tika iekļauti 1200 unikāli teikumu pāri. Eksperimenti tika veikti gan ar nemodificētu bilingvālo korpusu, gan vārdu celmos un rakstzīmju n-grammās pārveidotu korpusu. Šajos eksperimentos tika mērīta un salīdzināta algoritmu ātrdarbība, kā arī sastatījuma kvalitāte. Tika noteikts visprecīzākais un visātrākais algoritms, kā arī secināts, ka jāturpina pētījumi gan esošo un realizēto algoritmu uzlabošanā, gan neironu tīkla izmantošanā, lai no bilingvāliem korpusiem varētu iegūt kvalitatīvākus paralēlos korpusus. Dokumentā ir 58 lappuses, 14 attēli, 14 tabulas, un 24 informācijas avoti.
Atslēgas vārdi	dabīgās valodas apstrāde, bilingvāli korpusi, paralēli korpusi, korpusu sastatīšana, morfoloģiski bagātas valodas, rakstzīmju n-grammas, celmošana, neironu tīkli, teksta vektorizēšana, precizitāte, pārklājums, F1
Atslēgas vārdi angļu valodā	natural language processing, bilingual corpora, parallel corpora, corpora alignment, morfologically rich languages, character n-grams, stemming, neural networks, text vectorization, accuracy, recall, F1
Valoda	lv
Gads	2019
Darba augšupielādes datums un laiks	13.01.2019 15:27:52