Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language Teksta dokumentu semantiskā indeksēšana un meklēšana
Title in English Text Document Semantic Indexing and Searching
Department 12300 Institute of Applied Computer Systems
Scientific advisor Gints Jēkabsons
Reviewer V.Saulespurēns, M.sc.comp. , Latvijas Nacionālās bibliotēkas lietojumsistēmu administrators
Abstract Bakalaura darba tips: 1. tips: Moderno risinājumu izpēte. Ikviens ikdienā izmanto informācijas meklēšanas funkcionalitāti, tāpēc ir svarīgi iegūt pēc iespējas atbilstošākus meklēšanas rezultātus, lai lietotājs spētu atrast vajadzīgo informāciju. Tradicionāli dokumentu meklēšana tiek veikta ar inverso indeksu, kas glabā vārdus ar dokumentu sarakstiem, kuros tas sastopams. Šim paņēmienam netiek ņemta vērā dokumentu semantiskā struktūra. Lai to risinātu, dokumentu meklēšanu iespējams organizēt ar jēdzientelpām, kas attēlo vārdu semantiskās saistības daudzdimensiju vektoru telpā. Bakalaura darbā tiek salīdzināta dažādu jēdzientelpu veidošanas modeļu efektivitāte gan savā starpā, gan ar inverso indeksu. Bakalaura darba mērķis ir izpētīt semantiskās un tradicionālās indeksēšanas un meklēšanas pielietojumu teksta dokumentos, izveidot semantiskās un tradicionālās indeksēšanas prototipu latviešu valodas dokumentiem, lai salīdzinātu metožu efektivitāti. Lai sasniegtu bakalaura darba mērķi, tika izmantota literatūras analīzes, eksperimentālā un grafiskā metodoloģija. Darbā izveidots prototips dokumentu semantiskajai indeksēšanai un meklēšanai latviešu valodā, izmantojot jēdzientelpas un Apache Lucene bibliotēku. Tika noskaidrots, ka jēdzientelpas var dot labākus rezultātus, bet nespēj pilnībā aizstāt inverso indeksu. Bakalaura darba apjoms ir 50 lapaspuses. Tas sastāv no ievada, literatūras analīzes, eksperimenta apraksta un secinājumu daļas. Tajā ir 17 attēli, 4 tabulas, 69 literatūras avoti un 2 pielikumi.
Keywords dokumentu indeksēšana, dokumentu meklēšana, semantika, Apache Lucene, jēdzientelpas
Keywords in English document indexing, document searching, semantics, Apache Lucene, word embeddings
Language lv
Year 2021
Date and time of uploading 27.05.2021 17:44:35