Lokālo lielo valodas modeļu pielietojums lingvistiskās filtrēšanas un klasifikācijas uzdevumos

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Informācijas tehnoloģija
Nosaukums	Lokālo lielo valodas modeļu pielietojums lingvistiskās filtrēšanas un klasifikācijas uzdevumos
Nosaukums angļu valodā	Application of Local Large Language Models for Linguistic Filtering and Classification Tasks
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Henrihs Gorskis
Recenzents	Oskars Rodiņš
Anotācija	Pieaugot lietotāju ģenerētā satura apjomam tiešsaistes platformās, automātiska teksta moderēšana ir kļuvusi par būtisku tehnoloģisku izaicinājumu, savukārt mākoņpakalpojumos balstītu LLM risinājumu izmantošana rada datu privātuma, latentuma un izmaksu problēmas, tāpēc aktuāls kļūst jautājums par lokāli izvietotu lielo valodas modeļu pielietojamību moderēšanas uzdevumos. Darbā tiek pētīta lokāli izvietotu lielo valodas modeļu (LLM) izmantošana teksta satura automātiskas moderēšanas uzdevumam un to efektivitātes salīdzinājums ar klasiskajām uz noteikumiem un regulārām izteiksmēm balstītajām metodēm. Pamatojoties uz Civil Comments datubāzi (~1,8 milj. lietotāju komentāru ar marķējumu pēc septiņām toksicitātes kategorijām), izveidota izlase no 4900 piemēriem (4200 kaitīgi un 700 tīri komentāri) un obfuskēta izlase no 600 piemēriem. Realizēta modulāra eksperimentāla sistēma, kas atbalsta trīs pieejas: klasisko (uz noteikumiem balstīto), LLM caur lokālo LM Studio serveri un hibrīdo (klasiskā pieeja ar LLM novirzi uz nenoteiktiem gadījumiem). Veikti 10 eksperimenti ar 5 modeļiem (LlamaGuard 7B, Llama Guard 3 1B/8B, Qwen 2.5 7B Instruct, Llama 3.1 8B Instruct) un 5 promptu versijām. Labāko praktisko rezultātu uzrādīja Llama 3.1 8B Instruct ar pielāgotu JSON-promptu: F1 = 0.805 pie FPR = 0.331. Konstatēts, ka vispārīgi instrukciju pielāgoti LLM ar rūpīgi izvēlētu promptu būtiski pārspēj specializētos drošības klasifikatorus dotajā priekšmeta jomā. Darba apjoms: ~60 lpp, 16 attēli, 8 tabulas, 5 pielikumi, 32 informācijas avoti.
Atslēgas vārdi	LLM, TEKSTA KLASIFIKĀCIJA, TEKSTA MODERĒŠANA, REGULĀRĀS IZTEIKSMES, LOKĀLIE VALODAS MODEĻI, LM STUDIO, CIVIL COMMENTS
Atslēgas vārdi angļu valodā	LLM, TEXT CLASSIFICATION, TEXT MODERATION, REGULAR EXPRESSIONS, LOCAL LANGUAGE MODELS, LM STUDIO, CIVIL COMMENTS
Valoda	lv
Gads	2026
Darba augšupielādes datums un laiks	26.05.2026 16:16:20