Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Jēdzientelpu metožu salīdzināšana semantiskajai meklēšanai latviešu valodā
Nosaukums angļu valodā Comparison of Embedding Methods for Semantic Search in the Latvian Language
Struktūrvienība 12300 Lietišķo datorsistēmu institūts
Darba vadītājs Gints Jēkabsons
Recenzents Māra Pudāne
Anotācija Darbā tiek pētīta semantiskā meklēšana latviešu valodā, izmantojot jēdzientelpu metodes. Darbā tiek izvēlētas piecas dažādas jēdzientelpu metodes, kurām veikt eksperimentus – mBERT, LVBERT, mSimCSE, LASER un fastText. Lai novērtētu un salīdzinātu jēdzientelpu metodes semantiskajai meklēšanai latviešu valodā, tiek veikti eksperimenti, kuros tiek veikta dokumentu meklēšana datu kopās, atgriežot pēc līdzības tuvāko 1, 5 vai 10 kaimiņus, starp kuriem, ja atrodas attiecīgi pareizais meklētais rezultāts, tad tas ir pozitīvs iznākums, pretēji – negatīvs. Tiek izvēlēta vektoru meklēšanas un indeksēšanas programmatūra, ar kuru veikt semantisko meklēšanu. Priekš eksperimentu veikšanas, tiek gan izvēlētas jau eksistējošas datu kopas, gan izveidotas no jauna. Izmantojot izvēlētās jēdzientelpu metodes, tiek veidoti vektori izvēlētajām datu kopām, ar kurām veikt eksperimentus. Lai novērtētu jēdzientelpu metožu veiktspēju, tiek izvēlēti četri efektivitātes mēri: precizitāte, pārklājums F1 mērs un vidējais savstarpējais vērtējums. Darba mērķis ir novērtēt un salīdzināt jēdzientelpu metodes semantiskajai meklēšanai latviešu valodā, balstoties uz praktiskiem eksperimentiem, izmantojot izveidoto programmatūru un izveidotās datu kopas. Pēc eksperimentu rezultātu iegūšanas tiek izvirzīta hipotēze par veidu, kā uzlabot iegūtos rezultātus, šī hipotēze tiek apstiprināta – rezultātus iespējams uzlabot, izmantojot datu kopas priekšapstrādi un cita algoritma izmantošana vektoru indeksēšanai. Iegūtie rezultāti liecina, ka divās datu kopās vislabāk darbojās LASER metode un divās citās – fastText. Vissliktāko veikumu uzrādīja mBERT metode. LVBERT un mSimCSE uzrādīja konkurētspējīgu veikumu. Bakalaura darbā ir 60 lappuses, 14 attēli, 16 tabulas, 7 pielikumi un 61 informācijas avoti.
Atslēgas vārdi Jēdzientelpas, semantiskā meklēšana, vektoru indeksēšana, latviešu valoda
Atslēgas vārdi angļu valodā Embeddings, semantic search, vector indexing, Latvian language
Valoda lv
Gads 2023
Darba augšupielādes datums un laiks 28.05.2023 16:45:20