Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Teksta segmentēšana, izmantojot mašīnmācīšanos un dziļos neironu tīklus
Nosaukums angļu valodā Text Segmentation Using Machine Learning and Deep Neural Networks
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Gints Jēkabsons
Recenzents Artūrs Ardavs
Anotācija 1. tips: Moderno risinājumu izpēte Šis pētījums analizē teksta segmentēšanu, izmantojot mašīnmācīšanos un dziļos neironu tīklus. Pētījuma autors uzsver teksta segmentēšanas nozīmi mācību, datu apkopošanas sfērā, pierādot, ka tā ir nepieciešama sastāvdaļa ikdienas darbā ar liela apjoma teksta dokumentiem. Bakalaura darba galvenais mērķis bija novērtēt un salīdzināt lielos valodas modeļus un dziļos neironu tīklus teksta segmentēšanā latviešu valodā. Galvenais teksta segmentēšanas uzdevums bija novērtēt teikumu pāru piederību vienai rindkopai. Eksperimentiem tika izmantoti trīs dziļo neironu tīklu modeļi kombinācijā ar BERT – MLP, BiLSTM un ABCNN, kas tika apmācīti ar autora izveidotu datu kopu latviešu valodā. Izmantotie lielie valodas modeļi bija ChatGPT 4o, Gemini un Copilot. Eksperimentos visaugstvērtīgākos rezultātus uzrādīja ChatGPT 4o no visiem pētītajiem modeļiem, pārspējot arī dziļo neironu tīklu modeļus, kas tika apmācīti ar šo datu kopu. Starp dziļo neironu tīklu modeļiem visaugstākos rezultātus uzrādīja ABCNN + BERT. Galvenais secinājums pēc bakalaura darba izstrādes ir, ka lielie valodas modeļi spēj konkurēt teksta segmentēšanas kontekstā ar dziļo neironu tīklu modeļiem, taču nepieciešams veikt papildus eksperimentus, lai pilnvērtīgi sagatavotu dziļo neironu tīklu modeļus eksperimentiem, un atkārtoti veikt eksperimentus ar jau labāk apmācītiem dziļo neironu tīklu modeļiem. Dati par darba apjomu – 52 lappuses, 7 attēli, 10 tabulas un 35 informācijas avoti.
Atslēgas vārdi Teksta segmentēšana, mašīnmācīšanās
Atslēgas vārdi angļu valodā Text segmentation, machine learning
Valoda lv
Gads 2025
Darba augšupielādes datums un laiks 27.05.2025 19:12:09