Form of studies |
Bachelor |
Title of the study programm |
Computer Systems |
Title in original language |
Teksta dokumentu semantiskā indeksēšana un meklēšana |
Title in English |
Text Document Semantic Indexing and Searching |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
Gints Jēkabsons |
Reviewer |
V.Saulespurēns, M.sc.comp. , Latvijas Nacionālās bibliotēkas lietojumsistēmu administrators |
Abstract |
Bakalaura darba tips: 1. tips: Moderno risinājumu izpēte.
Ikviens ikdienā izmanto informācijas meklēšanas funkcionalitāti, tāpēc ir svarīgi iegūt pēc iespējas atbilstošākus meklēšanas rezultātus, lai lietotājs spētu atrast vajadzīgo informāciju. Tradicionāli dokumentu meklēšana tiek veikta ar inverso indeksu, kas glabā vārdus ar dokumentu sarakstiem, kuros tas sastopams. Šim paņēmienam netiek ņemta vērā dokumentu semantiskā struktūra. Lai to risinātu, dokumentu meklēšanu iespējams organizēt ar jēdzientelpām, kas attēlo vārdu semantiskās saistības daudzdimensiju vektoru telpā. Bakalaura darbā tiek salīdzināta dažādu jēdzientelpu veidošanas modeļu efektivitāte gan savā starpā, gan ar inverso indeksu.
Bakalaura darba mērķis ir izpētīt semantiskās un tradicionālās indeksēšanas un meklēšanas pielietojumu teksta dokumentos, izveidot semantiskās un tradicionālās indeksēšanas prototipu latviešu valodas dokumentiem, lai salīdzinātu metožu efektivitāti.
Lai sasniegtu bakalaura darba mērķi, tika izmantota literatūras analīzes, eksperimentālā un grafiskā metodoloģija.
Darbā izveidots prototips dokumentu semantiskajai indeksēšanai un meklēšanai latviešu valodā, izmantojot jēdzientelpas un Apache Lucene bibliotēku. Tika noskaidrots, ka jēdzientelpas var dot labākus rezultātus, bet nespēj pilnībā aizstāt inverso indeksu.
Bakalaura darba apjoms ir 50 lapaspuses. Tas sastāv no ievada, literatūras analīzes, eksperimenta apraksta un secinājumu daļas. Tajā ir 17 attēli, 4 tabulas, 69 literatūras avoti un 2 pielikumi. |
Keywords |
dokumentu indeksēšana, dokumentu meklēšana, semantika, Apache Lucene, jēdzientelpas |
Keywords in English |
document indexing, document searching, semantics, Apache Lucene, word embeddings |
Language |
lv |
Year |
2021 |
Date and time of uploading |
27.05.2021 17:44:35 |