Studiju veids |
bakalaura profesionālās studijas |
Studiju programmas nosaukums |
Datorsistēmas |
Nosaukums |
Sistēmas izstrāde paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa |
Nosaukums angļu valodā |
Development of the System for Targeted Collection of Parallel Corpora from the Web |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
G. Alksnis, Dr. sc. ing. |
Recenzents |
Mg.sc.ing. V.Nazaruks, SIA „ABC Software”, sistēmu analītiķis |
Anotācija |
Šī darba mērķis bija izstrādāt sistēmu paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa. Lai sasniegtu šo mērķi, tika izpētītas dažādu veidu tīmekļa vietnes, noskaidrotas jau esošās paralēlo korpusu vākšanas sistēmas, apskatīti HTML satura parsēšanas veidi, izpētīti integrējamie ārējie rīki un izstrādāta pati sistēma. Lai izstrādātu sistēmu, tika definētas programmatūras prasības, veikta sistēmas projektēšana, kodēšana un testēšana.
Darba gaitā izstrādātā sistēma tika izmēģināta projektā, kurā tika vākti paralēli korpusi igauņu-angļu un igauņu-krievu valodu pāros. Apkopojot rezultātus, tika secināts, ka izstrādātā sistēma ļauj lietotājam ietekmēt korpusu vākšanas rezultātus, kā arī lokāli pielāgot sistēmas kodu. Sistēmu ieteicams attīstīt, pievienojot jaunus apstrādājamo dokumentu formātus.
Dokumentā ir 50 lappuses, 34 attēli, 2 tabulas, 1 pielikums un 36 nosaukumu informācijas avoti. |
Atslēgas vārdi |
paralēlie korpusi, tīmeklis, korpusu vākšana |
Atslēgas vārdi angļu valodā |
parallel corpora, web, corpora collection |
Valoda |
lv |
Gads |
2017 |
Darba augšupielādes datums un laiks |
15.01.2017 12:16:05 |