Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Information Technology
Title in original language Lielo valodas modeļu pielietojums automātiskai gramatisko kļūdu labošanai latviešu valodā
Title in English Application of Large Language Models for Automatic Grammatical Error Correction in the Latvian Language
Department Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor Henrihs Gorskis
Reviewer Olga Krutikova
Abstract Bakalaura darba tēma ir "Lielo valodas modeļu pielietojums automātiskai gramatisko kļūdu labošanai latviešu valodā". Darba aktualitāti nosaka nepieciešamība pēc efektīviem dabīgās valodas apstrādes rīkiem mazu resursu valodām, kurām trūkst apjomīgu anotētu datu kopu. Pētījuma mērķis ir izstrādāt un validēt metodiku atvērta pirmkoda lielo valodas modeļu pielāgošanai latviešu valodas gramatikas kļūdu automātiskas labošanas uzdevumam.Teorētiskajā daļā analizēta Transformer arhitektūra, pašuzmanības mehānisma nozīme valodas struktūru uztverē, kā arī esošo gramatikas labošanas rīku ierobežojumi latviešu valodas kontekstā. Praktiskajā daļā tika izstrādāts algoritms sintētisko datu ģenerēšanai, kas ļauj imitēt ortogrāfijas un morfoloģijas kļūdas un tādā veidā risina datu trūkuma problēmu. Modeļa apmācībai izmantota Llama-3 8B arhitektūra ar QLoRA (Quantized Low-Rank Adaptation) metodi, kas nodrošina ievērojamu resursu efektivitāti un ļauj veikt apmācību uz patērētāju klases GPU. Apmācības datu kopa tika iteratīvi paplašināta līdz aptuveni 2500 piemēriem, aptverot dažādas tematiskās jomas un neformālo saziņas stilu. Kā praktiskais rezultāts tika izstrādāts tīmekļa lietotāja interfeiss, kas nodrošina reāllaika teksta labošanu un vizuālu labojumu salīdzinājumu.Novērtēšanas rezultāti uz 25 testa piemēriem apliecina modeļa efektivitāti: vidējais F1 rādītājs sasniedz 0.80, vidējais BLEU 0.67, bet Corpus BLEU 0.72. 24 no 25 testa gadījumiem (96%) tika apstrādāti ar F1 >= 0.5. Pētījuma rezultāti apstiprina, ka lokāli darbināmi atvērta pirmkoda LLM ar sintētiskajiem apmācības datiem ir principiāli lietojami latviešu valodas gramatikas kļūdu labošanai, piedāvājot privātumu nodrošinošu alternatīvu komerciāliem mākoņpakalpojumiem.
Keywords LLM, latviešu valoda, gramatikas kļūdu labošana, LoRA, QLoRA, Fine-tuning, Transformer arhitektūra, pārneses mācīšanās
Keywords in English LLM, Latvian language, grammatical error correction, LoRA, QLoRA, Fine-tuning, Transformer architecture, transfer learning.
Language lv
Year 2026
Date and time of uploading 25.05.2026 22:53:19