Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language Jēdzientelpu metožu salīdzināšana semantiskajai meklēšanai latviešu valodā
Title in English Comparison of Embedding Methods for Semantic Search in the Latvian Language
Department 12300 Institute of Applied Computer Systems
Scientific advisor Gints Jēkabsons
Reviewer Māra Pudāne
Abstract Darbā tiek pētīta semantiskā meklēšana latviešu valodā, izmantojot jēdzientelpu metodes. Darbā tiek izvēlētas piecas dažādas jēdzientelpu metodes, kurām veikt eksperimentus – mBERT, LVBERT, mSimCSE, LASER un fastText. Lai novērtētu un salīdzinātu jēdzientelpu metodes semantiskajai meklēšanai latviešu valodā, tiek veikti eksperimenti, kuros tiek veikta dokumentu meklēšana datu kopās, atgriežot pēc līdzības tuvāko 1, 5 vai 10 kaimiņus, starp kuriem, ja atrodas attiecīgi pareizais meklētais rezultāts, tad tas ir pozitīvs iznākums, pretēji – negatīvs. Tiek izvēlēta vektoru meklēšanas un indeksēšanas programmatūra, ar kuru veikt semantisko meklēšanu. Priekš eksperimentu veikšanas, tiek gan izvēlētas jau eksistējošas datu kopas, gan izveidotas no jauna. Izmantojot izvēlētās jēdzientelpu metodes, tiek veidoti vektori izvēlētajām datu kopām, ar kurām veikt eksperimentus. Lai novērtētu jēdzientelpu metožu veiktspēju, tiek izvēlēti četri efektivitātes mēri: precizitāte, pārklājums F1 mērs un vidējais savstarpējais vērtējums. Darba mērķis ir novērtēt un salīdzināt jēdzientelpu metodes semantiskajai meklēšanai latviešu valodā, balstoties uz praktiskiem eksperimentiem, izmantojot izveidoto programmatūru un izveidotās datu kopas. Pēc eksperimentu rezultātu iegūšanas tiek izvirzīta hipotēze par veidu, kā uzlabot iegūtos rezultātus, šī hipotēze tiek apstiprināta – rezultātus iespējams uzlabot, izmantojot datu kopas priekšapstrādi un cita algoritma izmantošana vektoru indeksēšanai. Iegūtie rezultāti liecina, ka divās datu kopās vislabāk darbojās LASER metode un divās citās – fastText. Vissliktāko veikumu uzrādīja mBERT metode. LVBERT un mSimCSE uzrādīja konkurētspējīgu veikumu. Bakalaura darbā ir 60 lappuses, 14 attēli, 16 tabulas, 7 pielikumi un 61 informācijas avoti.
Keywords Jēdzientelpas, semantiskā meklēšana, vektoru indeksēšana, latviešu valoda
Keywords in English Embeddings, semantic search, vector indexing, Latvian language
Language lv
Year 2023
Date and time of uploading 28.05.2023 16:45:20