Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura profesionālās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Sistēmas izstrāde paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa
Nosaukums angļu valodā Development of the System for Targeted Collection of Parallel Corpora from the Web
Autors Jānis Šlapiņš
Struktūrvienība 12300 Lietišķo datorsistēmu institūts
Darba vadītājs G. Alksnis, Dr. sc. ing.
Recenzents Mg.sc.ing. V.Nazaruks, SIA „ABC Software”, sistēmu analītiķis
Anotācija Šī darba mērķis bija izstrādāt sistēmu paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa. Lai sasniegtu šo mērķi, tika izpētītas dažādu veidu tīmekļa vietnes, noskaidrotas jau esošās paralēlo korpusu vākšanas sistēmas, apskatīti HTML satura parsēšanas veidi, izpētīti integrējamie ārējie rīki un izstrādāta pati sistēma. Lai izstrādātu sistēmu, tika definētas programmatūras prasības, veikta sistēmas projektēšana, kodēšana un testēšana. Darba gaitā izstrādātā sistēma tika izmēģināta projektā, kurā tika vākti paralēli korpusi igauņu-angļu un igauņu-krievu valodu pāros. Apkopojot rezultātus, tika secināts, ka izstrādātā sistēma ļauj lietotājam ietekmēt korpusu vākšanas rezultātus, kā arī lokāli pielāgot sistēmas kodu. Sistēmu ieteicams attīstīt, pievienojot jaunus apstrādājamo dokumentu formātus. Dokumentā ir 50 lappuses, 34 attēli, 2 tabulas, 1 pielikums un 36 nosaukumu informācijas avoti.
Atslēgas vārdi paralēlie korpusi, tīmeklis, korpusu vākšana
Atslēgas vārdi angļu valodā parallel corpora, web, corpora collection
Valoda lv
Gads 2017
Darba augšupielādes datums un laiks 15.01.2017 12:16:05