Lielo valodas modeļu pielietojums automātiskai gramatisko kļūdu labošanai latviešu valodā

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Informācijas tehnoloģija
Nosaukums	Lielo valodas modeļu pielietojums automātiskai gramatisko kļūdu labošanai latviešu valodā
Nosaukums angļu valodā	Application of Large Language Models for Automatic Grammatical Error Correction in the Latvian Language
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Henrihs Gorskis
Recenzents	Olga Krutikova
Anotācija	Bakalaura darba tēma ir "Lielo valodas modeļu pielietojums automātiskai gramatisko kļūdu labošanai latviešu valodā". Darba aktualitāti nosaka nepieciešamība pēc efektīviem dabīgās valodas apstrādes rīkiem mazu resursu valodām, kurām trūkst apjomīgu anotētu datu kopu. Pētījuma mērķis ir izstrādāt un validēt metodiku atvērta pirmkoda lielo valodas modeļu pielāgošanai latviešu valodas gramatikas kļūdu automātiskas labošanas uzdevumam.Teorētiskajā daļā analizēta Transformer arhitektūra, pašuzmanības mehānisma nozīme valodas struktūru uztverē, kā arī esošo gramatikas labošanas rīku ierobežojumi latviešu valodas kontekstā. Praktiskajā daļā tika izstrādāts algoritms sintētisko datu ģenerēšanai, kas ļauj imitēt ortogrāfijas un morfoloģijas kļūdas un tādā veidā risina datu trūkuma problēmu. Modeļa apmācībai izmantota Llama-3 8B arhitektūra ar QLoRA (Quantized Low-Rank Adaptation) metodi, kas nodrošina ievērojamu resursu efektivitāti un ļauj veikt apmācību uz patērētāju klases GPU. Apmācības datu kopa tika iteratīvi paplašināta līdz aptuveni 2500 piemēriem, aptverot dažādas tematiskās jomas un neformālo saziņas stilu. Kā praktiskais rezultāts tika izstrādāts tīmekļa lietotāja interfeiss, kas nodrošina reāllaika teksta labošanu un vizuālu labojumu salīdzinājumu.Novērtēšanas rezultāti uz 25 testa piemēriem apliecina modeļa efektivitāti: vidējais F1 rādītājs sasniedz 0.80, vidējais BLEU 0.67, bet Corpus BLEU 0.72. 24 no 25 testa gadījumiem (96%) tika apstrādāti ar F1 >= 0.5. Pētījuma rezultāti apstiprina, ka lokāli darbināmi atvērta pirmkoda LLM ar sintētiskajiem apmācības datiem ir principiāli lietojami latviešu valodas gramatikas kļūdu labošanai, piedāvājot privātumu nodrošinošu alternatīvu komerciāliem mākoņpakalpojumiem.
Atslēgas vārdi	LLM, latviešu valoda, gramatikas kļūdu labošana, LoRA, QLoRA, Fine-tuning, Transformer arhitektūra, pārneses mācīšanās
Atslēgas vārdi angļu valodā	LLM, Latvian language, grammatical error correction, LoRA, QLoRA, Fine-tuning, Transformer architecture, transfer learning.
Valoda	lv
Gads	2026
Darba augšupielādes datums un laiks	25.05.2026 22:53:19