Anotācija |
Darbā tiek pētīta semantiskā meklēšana latviešu valodā, izmantojot jēdzientelpu
metodes. Darbā tiek izvēlētas piecas dažādas jēdzientelpu metodes, kurām veikt
eksperimentus – mBERT, LVBERT, mSimCSE, LASER un fastText. Lai novērtētu un
salīdzinātu jēdzientelpu metodes semantiskajai meklēšanai latviešu valodā, tiek veikti
eksperimenti, kuros tiek veikta dokumentu meklēšana datu kopās, atgriežot pēc līdzības
tuvāko 1, 5 vai 10 kaimiņus, starp kuriem, ja atrodas attiecīgi pareizais meklētais
rezultāts, tad tas ir pozitīvs iznākums, pretēji – negatīvs. Tiek izvēlēta vektoru
meklēšanas un indeksēšanas programmatūra, ar kuru veikt semantisko meklēšanu.
Priekš eksperimentu veikšanas, tiek gan izvēlētas jau eksistējošas datu kopas, gan
izveidotas no jauna. Izmantojot izvēlētās jēdzientelpu metodes, tiek veidoti vektori
izvēlētajām datu kopām, ar kurām veikt eksperimentus. Lai novērtētu jēdzientelpu
metožu veiktspēju, tiek izvēlēti četri efektivitātes mēri: precizitāte, pārklājums F1 mērs
un vidējais savstarpējais vērtējums. Darba mērķis ir novērtēt un salīdzināt jēdzientelpu
metodes semantiskajai meklēšanai latviešu valodā, balstoties uz praktiskiem
eksperimentiem, izmantojot izveidoto programmatūru un izveidotās datu kopas. Pēc
eksperimentu rezultātu iegūšanas tiek izvirzīta hipotēze par veidu, kā uzlabot iegūtos
rezultātus, šī hipotēze tiek apstiprināta – rezultātus iespējams uzlabot, izmantojot datu
kopas priekšapstrādi un cita algoritma izmantošana vektoru indeksēšanai. Iegūtie
rezultāti liecina, ka divās datu kopās vislabāk darbojās LASER metode un divās citās –
fastText. Vissliktāko veikumu uzrādīja mBERT metode. LVBERT un mSimCSE
uzrādīja konkurētspējīgu veikumu.
Bakalaura darbā ir 60 lappuses, 14 attēli, 16 tabulas, 7 pielikumi un 61
informācijas avoti. |