Form of studies |
Professional Bachelor |
Title of the study programm |
Computer Systems |
Title in original language |
Sistēmas izstrāde paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa |
Title in English |
Development of the System for Targeted Collection of Parallel Corpora from the Web |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
G. Alksnis, Dr. sc. ing. |
Reviewer |
Mg.sc.ing. V.Nazaruks, SIA „ABC Software”, sistēmu analītiķis |
Abstract |
Šī darba mērķis bija izstrādāt sistēmu paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa. Lai sasniegtu šo mērķi, tika izpētītas dažādu veidu tīmekļa vietnes, noskaidrotas jau esošās paralēlo korpusu vākšanas sistēmas, apskatīti HTML satura parsēšanas veidi, izpētīti integrējamie ārējie rīki un izstrādāta pati sistēma. Lai izstrādātu sistēmu, tika definētas programmatūras prasības, veikta sistēmas projektēšana, kodēšana un testēšana.
Darba gaitā izstrādātā sistēma tika izmēģināta projektā, kurā tika vākti paralēli korpusi igauņu-angļu un igauņu-krievu valodu pāros. Apkopojot rezultātus, tika secināts, ka izstrādātā sistēma ļauj lietotājam ietekmēt korpusu vākšanas rezultātus, kā arī lokāli pielāgot sistēmas kodu. Sistēmu ieteicams attīstīt, pievienojot jaunus apstrādājamo dokumentu formātus.
Dokumentā ir 50 lappuses, 34 attēli, 2 tabulas, 1 pielikums un 36 nosaukumu informācijas avoti. |
Keywords |
paralēlie korpusi, tīmeklis, korpusu vākšana |
Keywords in English |
parallel corpora, web, corpora collection |
Language |
lv |
Year |
2017 |
Date and time of uploading |
15.01.2017 12:16:05 |