Graduate papers
  
Description of the graduate paper
Form of studies Professional Bachelor
Title of the study programm Computer Systems
Title in original language Sistēmas izstrāde paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa
Title in English Development of the System for Targeted Collection of Parallel Corpora from the Web
Author Jānis Šlapiņš
Department 12300 Institute of Applied Computer Systems
Scientific advisor G. Alksnis, Dr. sc. ing.
Reviewer Mg.sc.ing. V.Nazaruks, SIA „ABC Software”, sistēmu analītiķis
Abstract Šī darba mērķis bija izstrādāt sistēmu paralēlo korpusu mērķtiecīgai vākšanai no tīmekļa. Lai sasniegtu šo mērķi, tika izpētītas dažādu veidu tīmekļa vietnes, noskaidrotas jau esošās paralēlo korpusu vākšanas sistēmas, apskatīti HTML satura parsēšanas veidi, izpētīti integrējamie ārējie rīki un izstrādāta pati sistēma. Lai izstrādātu sistēmu, tika definētas programmatūras prasības, veikta sistēmas projektēšana, kodēšana un testēšana. Darba gaitā izstrādātā sistēma tika izmēģināta projektā, kurā tika vākti paralēli korpusi igauņu-angļu un igauņu-krievu valodu pāros. Apkopojot rezultātus, tika secināts, ka izstrādātā sistēma ļauj lietotājam ietekmēt korpusu vākšanas rezultātus, kā arī lokāli pielāgot sistēmas kodu. Sistēmu ieteicams attīstīt, pievienojot jaunus apstrādājamo dokumentu formātus. Dokumentā ir 50 lappuses, 34 attēli, 2 tabulas, 1 pielikums un 36 nosaukumu informācijas avoti.
Keywords paralēlie korpusi, tīmeklis, korpusu vākšana
Keywords in English parallel corpora, web, corpora collection
Language lv
Year 2017
Date and time of uploading 15.01.2017 12:16:05