Clickbait Recognition in News Headlines Using Machine Learning and Large Language Models

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Bachelor
Title of the study programm	Computer Systems
Title in original language	Klikšķēsmas atpazīšana ziņu virsrakstos, izmantojot mašīnmācīšanos un lielos valodas modeļus
Title in English	Clickbait Recognition in News Headlines Using Machine Learning and Large Language Models
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Gints Jēkabsons
Reviewer	Egons Lavendelis
Abstract	Pētījums veltīts aktuālai problēmai digitālo mediju vidē – klikšķēsmas atpazīšanai ziņu virsrakstos. Darbs fokusējas uz latviešu valodas specifiku, salīdzinot klasiskās mašīnmācīšanās metodes ar mūsdienu lielajiem valodas modeļiem. Eksperimentālajā daļā izmantota speciāli izveidota 4930 virsrakstu datu kopa, kurā katrs ieraksts klasificēts vienā no trim kategorijām: nav klikšķēsma, daļēja klikšķēsma vai ir klikšķēsma. Pētījumā analizēti pieci tradicionālie algoritmi (Loģistiskā regresija, Naivais Beijess, Atbalsta vektoru mašīna, Nejaušais mežs, k-Tuvākie kaimiņi) un trīs lielie valodas modeļi nulles šāviena režīmā (GPT-3.5, GPT-4 Turbo, Mistral 7B Instruct). Rezultāti atklāj, ka labākie klasifikācijas rādītāji sasniegti ar Atbalsta vektora mašīnu (F1=0.816) un GPT-4 Turbo (F1=0.817), pierādot LLM konkurētspēju bez iepriekšējas apmācības. Darbs sniedz praktiskas rekomendācijas modeļu izvēlei, ņemot vērā ne tikai precizitāti, bet arī izmaksas, apstrādes laiku un tehniskās prasības.
Keywords	KLIKŠĶĒSMA; LATVIEŠU VALODAS APSTRĀDE; LIELIE VALODAS MODEĻI; TEKSTA KLASIFICĒŠANA; NULLES ŠĀVIENA MĀCĪŠANĀS
Keywords in English	CLICKBAIT; LATVIAN LANGUAGE PROCESSING; LARGE LANGUAGE MODELS; TEXT CLASSIFICATION; ZERO-SHOT LEARNING
Language	lv
Year	2025
Date and time of uploading	26.05.2025 12:56:47