| Studiju veids |
bakalaura akadēmiskās studijas |
| Studiju programmas nosaukums |
Informācijas tehnoloģija |
| Nosaukums |
Lokālo lielo valodas modeļu pielietojums lingvistiskās filtrēšanas un klasifikācijas uzdevumos |
| Nosaukums angļu valodā |
Application of Local Large Language Models for Linguistic Filtering and Classification Tasks |
| Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
| Darba vadītājs |
Henrihs Gorskis |
| Recenzents |
Oskars Rodiņš |
| Anotācija |
Pieaugot lietotāju ģenerētā satura apjomam tiešsaistes platformās, automātiska
teksta moderēšana ir kļuvusi par būtisku tehnoloģisku izaicinājumu, savukārt
mākoņpakalpojumos balstītu LLM risinājumu izmantošana rada datu privātuma,
latentuma un izmaksu problēmas, tāpēc aktuāls kļūst jautājums par lokāli izvietotu lielo
valodas modeļu pielietojamību moderēšanas uzdevumos. Darbā tiek pētīta lokāli
izvietotu lielo valodas modeļu (LLM) izmantošana teksta satura automātiskas
moderēšanas uzdevumam un to efektivitātes salīdzinājums ar klasiskajām uz
noteikumiem un regulārām izteiksmēm balstītajām metodēm. Pamatojoties uz Civil
Comments datubāzi (~1,8 milj. lietotāju komentāru ar marķējumu pēc septiņām
toksicitātes kategorijām), izveidota izlase no 4900 piemēriem (4200 kaitīgi un 700 tīri
komentāri) un obfuskēta izlase no 600 piemēriem. Realizēta modulāra eksperimentāla
sistēma, kas atbalsta trīs pieejas: klasisko (uz noteikumiem balstīto), LLM caur lokālo
LM Studio serveri un hibrīdo (klasiskā pieeja ar LLM novirzi uz nenoteiktiem
gadījumiem). Veikti 10 eksperimenti ar 5 modeļiem (LlamaGuard 7B, Llama Guard 3
1B/8B, Qwen 2.5 7B Instruct, Llama 3.1 8B Instruct) un 5 promptu versijām. Labāko
praktisko rezultātu uzrādīja Llama 3.1 8B Instruct ar pielāgotu JSON-promptu: F1 =
0.805 pie FPR = 0.331. Konstatēts, ka vispārīgi instrukciju pielāgoti LLM ar rūpīgi
izvēlētu promptu būtiski pārspēj specializētos drošības klasifikatorus dotajā priekšmeta
jomā.
Darba apjoms: ~60 lpp, 16 attēli, 8 tabulas, 5 pielikumi, 32 informācijas avoti. |
| Atslēgas vārdi |
LLM, TEKSTA KLASIFIKĀCIJA, TEKSTA MODERĒŠANA, REGULĀRĀS IZTEIKSMES, LOKĀLIE VALODAS MODEĻI, LM STUDIO, CIVIL COMMENTS |
| Atslēgas vārdi angļu valodā |
LLM, TEXT CLASSIFICATION, TEXT MODERATION, REGULAR EXPRESSIONS, LOCAL LANGUAGE MODELS, LM STUDIO, CIVIL COMMENTS |
| Valoda |
lv |
| Gads |
2026 |
| Darba augšupielādes datums un laiks |
26.05.2026 16:16:20 |