Studiju veids |
bakalaura akadēmiskās studijas |
Studiju programmas nosaukums |
Datorsistēmas |
Nosaukums |
Teksta dokumentu semantiskā indeksēšana un meklēšana |
Nosaukums angļu valodā |
Text Document Semantic Indexing and Searching |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
Gints Jēkabsons |
Recenzents |
V.Saulespurēns, M.sc.comp. , Latvijas Nacionālās bibliotēkas lietojumsistēmu administrators |
Anotācija |
Bakalaura darba tips: 1. tips: Moderno risinājumu izpēte.
Ikviens ikdienā izmanto informācijas meklēšanas funkcionalitāti, tāpēc ir svarīgi iegūt pēc iespējas atbilstošākus meklēšanas rezultātus, lai lietotājs spētu atrast vajadzīgo informāciju. Tradicionāli dokumentu meklēšana tiek veikta ar inverso indeksu, kas glabā vārdus ar dokumentu sarakstiem, kuros tas sastopams. Šim paņēmienam netiek ņemta vērā dokumentu semantiskā struktūra. Lai to risinātu, dokumentu meklēšanu iespējams organizēt ar jēdzientelpām, kas attēlo vārdu semantiskās saistības daudzdimensiju vektoru telpā. Bakalaura darbā tiek salīdzināta dažādu jēdzientelpu veidošanas modeļu efektivitāte gan savā starpā, gan ar inverso indeksu.
Bakalaura darba mērķis ir izpētīt semantiskās un tradicionālās indeksēšanas un meklēšanas pielietojumu teksta dokumentos, izveidot semantiskās un tradicionālās indeksēšanas prototipu latviešu valodas dokumentiem, lai salīdzinātu metožu efektivitāti.
Lai sasniegtu bakalaura darba mērķi, tika izmantota literatūras analīzes, eksperimentālā un grafiskā metodoloģija.
Darbā izveidots prototips dokumentu semantiskajai indeksēšanai un meklēšanai latviešu valodā, izmantojot jēdzientelpas un Apache Lucene bibliotēku. Tika noskaidrots, ka jēdzientelpas var dot labākus rezultātus, bet nespēj pilnībā aizstāt inverso indeksu.
Bakalaura darba apjoms ir 50 lapaspuses. Tas sastāv no ievada, literatūras analīzes, eksperimenta apraksta un secinājumu daļas. Tajā ir 17 attēli, 4 tabulas, 69 literatūras avoti un 2 pielikumi. |
Atslēgas vārdi |
dokumentu indeksēšana, dokumentu meklēšana, semantika, Apache Lucene, jēdzientelpas |
Atslēgas vārdi angļu valodā |
document indexing, document searching, semantics, Apache Lucene, word embeddings |
Valoda |
lv |
Gads |
2021 |
Darba augšupielādes datums un laiks |
27.05.2021 17:44:35 |