| Studiju veids |
bakalaura akadēmiskās studijas |
| Studiju programmas nosaukums |
Datorsistēmas |
| Nosaukums |
Klikšķēsmas atpazīšana ziņu virsrakstos, izmantojot mašīnmācīšanos un lielos valodas modeļus |
| Nosaukums angļu valodā |
Clickbait Recognition in News Headlines Using Machine Learning and Large Language Models |
| Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
| Darba vadītājs |
Gints Jēkabsons |
| Recenzents |
Egons Lavendelis |
| Anotācija |
Pētījums veltīts aktuālai problēmai digitālo mediju vidē – klikšķēsmas atpazīšanai ziņu virsrakstos. Darbs fokusējas uz latviešu valodas specifiku, salīdzinot klasiskās mašīnmācīšanās metodes ar mūsdienu lielajiem valodas modeļiem. Eksperimentālajā daļā izmantota speciāli izveidota 4930 virsrakstu datu kopa, kurā katrs ieraksts klasificēts vienā no trim kategorijām: nav klikšķēsma, daļēja klikšķēsma vai ir klikšķēsma. Pētījumā analizēti pieci tradicionālie algoritmi (Loģistiskā regresija, Naivais Beijess, Atbalsta vektoru mašīna, Nejaušais mežs, k-Tuvākie kaimiņi) un trīs lielie valodas modeļi nulles šāviena režīmā (GPT-3.5, GPT-4 Turbo, Mistral 7B Instruct). Rezultāti atklāj, ka labākie klasifikācijas rādītāji sasniegti ar Atbalsta vektora mašīnu (F1=0.816) un GPT-4 Turbo (F1=0.817), pierādot LLM konkurētspēju bez iepriekšējas apmācības. Darbs sniedz praktiskas rekomendācijas modeļu izvēlei, ņemot vērā ne tikai precizitāti, bet arī izmaksas, apstrādes laiku un tehniskās prasības. |
| Atslēgas vārdi |
KLIKŠĶĒSMA; LATVIEŠU VALODAS APSTRĀDE; LIELIE VALODAS MODEĻI; TEKSTA KLASIFICĒŠANA; NULLES ŠĀVIENA MĀCĪŠANĀS |
| Atslēgas vārdi angļu valodā |
CLICKBAIT; LATVIAN LANGUAGE PROCESSING; LARGE LANGUAGE MODELS; TEXT CLASSIFICATION; ZERO-SHOT LEARNING |
| Valoda |
lv |
| Gads |
2025 |
| Darba augšupielādes datums un laiks |
26.05.2025 12:56:47 |