Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Informācijas tehnoloģija
Nosaukums Lielo valodas modeļu pielietojums automātiskai gramatisko kļūdu labošanai latviešu valodā
Nosaukums angļu valodā Application of Large Language Models for Automatic Grammatical Error Correction in the Latvian Language
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Henrihs Gorskis
Recenzents Olga Krutikova
Anotācija Bakalaura darba tēma ir "Lielo valodas modeļu pielietojums automātiskai gramatisko kļūdu labošanai latviešu valodā". Darba aktualitāti nosaka nepieciešamība pēc efektīviem dabīgās valodas apstrādes rīkiem mazu resursu valodām, kurām trūkst apjomīgu anotētu datu kopu. Pētījuma mērķis ir izstrādāt un validēt metodiku atvērta pirmkoda lielo valodas modeļu pielāgošanai latviešu valodas gramatikas kļūdu automātiskas labošanas uzdevumam.Teorētiskajā daļā analizēta Transformer arhitektūra, pašuzmanības mehānisma nozīme valodas struktūru uztverē, kā arī esošo gramatikas labošanas rīku ierobežojumi latviešu valodas kontekstā. Praktiskajā daļā tika izstrādāts algoritms sintētisko datu ģenerēšanai, kas ļauj imitēt ortogrāfijas un morfoloģijas kļūdas un tādā veidā risina datu trūkuma problēmu. Modeļa apmācībai izmantota Llama-3 8B arhitektūra ar QLoRA (Quantized Low-Rank Adaptation) metodi, kas nodrošina ievērojamu resursu efektivitāti un ļauj veikt apmācību uz patērētāju klases GPU. Apmācības datu kopa tika iteratīvi paplašināta līdz aptuveni 2500 piemēriem, aptverot dažādas tematiskās jomas un neformālo saziņas stilu. Kā praktiskais rezultāts tika izstrādāts tīmekļa lietotāja interfeiss, kas nodrošina reāllaika teksta labošanu un vizuālu labojumu salīdzinājumu.Novērtēšanas rezultāti uz 25 testa piemēriem apliecina modeļa efektivitāti: vidējais F1 rādītājs sasniedz 0.80, vidējais BLEU 0.67, bet Corpus BLEU 0.72. 24 no 25 testa gadījumiem (96%) tika apstrādāti ar F1 >= 0.5. Pētījuma rezultāti apstiprina, ka lokāli darbināmi atvērta pirmkoda LLM ar sintētiskajiem apmācības datiem ir principiāli lietojami latviešu valodas gramatikas kļūdu labošanai, piedāvājot privātumu nodrošinošu alternatīvu komerciāliem mākoņpakalpojumiem.
Atslēgas vārdi LLM, latviešu valoda, gramatikas kļūdu labošana, LoRA, QLoRA, Fine-tuning, Transformer arhitektūra, pārneses mācīšanās
Atslēgas vārdi angļu valodā LLM, Latvian language, grammatical error correction, LoRA, QLoRA, Fine-tuning, Transformer architecture, transfer learning.
Valoda lv
Gads 2026
Darba augšupielādes datums un laiks 25.05.2026 22:53:19