Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Klikšķēsmas atpazīšana ziņu virsrakstos, izmantojot mašīnmācīšanos un lielos valodas modeļus
Nosaukums angļu valodā Clickbait Recognition in News Headlines Using Machine Learning and Large Language Models
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Gints Jēkabsons
Recenzents Egons Lavendelis
Anotācija Pētījums veltīts aktuālai problēmai digitālo mediju vidē – klikšķēsmas atpazīšanai ziņu virsrakstos. Darbs fokusējas uz latviešu valodas specifiku, salīdzinot klasiskās mašīnmācīšanās metodes ar mūsdienu lielajiem valodas modeļiem. Eksperimentālajā daļā izmantota speciāli izveidota 4930 virsrakstu datu kopa, kurā katrs ieraksts klasificēts vienā no trim kategorijām: nav klikšķēsma, daļēja klikšķēsma vai ir klikšķēsma. Pētījumā analizēti pieci tradicionālie algoritmi (Loģistiskā regresija, Naivais Beijess, Atbalsta vektoru mašīna, Nejaušais mežs, k-Tuvākie kaimiņi) un trīs lielie valodas modeļi nulles šāviena režīmā (GPT-3.5, GPT-4 Turbo, Mistral 7B Instruct). Rezultāti atklāj, ka labākie klasifikācijas rādītāji sasniegti ar Atbalsta vektora mašīnu (F1=0.816) un GPT-4 Turbo (F1=0.817), pierādot LLM konkurētspēju bez iepriekšējas apmācības. Darbs sniedz praktiskas rekomendācijas modeļu izvēlei, ņemot vērā ne tikai precizitāti, bet arī izmaksas, apstrādes laiku un tehniskās prasības.
Atslēgas vārdi KLIKŠĶĒSMA; LATVIEŠU VALODAS APSTRĀDE; LIELIE VALODAS MODEĻI; TEKSTA KLASIFICĒŠANA; NULLES ŠĀVIENA MĀCĪŠANĀS
Atslēgas vārdi angļu valodā CLICKBAIT; LATVIAN LANGUAGE PROCESSING; LARGE LANGUAGE MODELS; TEXT CLASSIFICATION; ZERO-SHOT LEARNING
Valoda lv
Gads 2025
Darba augšupielādes datums un laiks 26.05.2025 12:56:47