Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Optiskās rakstzīmju atpazīšanas kļūdu labošana, izmantojot lielos valodas modeļus
Nosaukums angļu valodā Error Correction of Optical Character Recognition Using Large Language Models
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Gints Jēkabsons
Recenzents Katrīna Šmite
Anotācija Šis bakalaura darbs aplūko tēmas, kas ir saistītas ar optisko rakstzīmju atpazīšanas pamatprincipiem un optisko rakstzīmju atpazīšanas sistēmas kļūdu labošanu, izmantojot lielos valodas modeļus, kā arī klasiskos algoritmus. Darba mērķis ir izpētīt Lielo Valodas Modeļu efektivitāti optisko rakstzīmju kļūdu labošanā latviešu valodā, salīdzinot tos ar klasiskajiem kļūdu labošanas algoritmiem, lai pārliecinātos, kura pieeja garantē labākus rezultātus. Par pamatu klasiskajiem kļūdu labošanas algoritmiem tika izvēlēts Levenšteina distances algoritms un N-gramma algoritms. BLOOM-560M, mT5-small un mT5-base tika izvēlēti kā lokāli implementējamie Lielie valodas modeļi. DeepSeek-V3 tika izvēlēts tā parametru skaita dēļ. No veiktajiem eksperimentiem var secināt, ka klasiskie kļūdu labošanas algoritmi veic mazus, bet stabilus uzlabojumus vārda līmenī. Visi lokāli implementētie LLM nespēja labot kļūdas latviešu valodā ne vārda, ne rakstzīmju līmenī. DeepSeek-V3 lielais valodas modelis spēj efektīvāk labot OCR kļūdas latviešu valodā nekā klasiskie kļūdu labošanas algoritmi.
Atslēgas vārdi Optiskā rakstzīmju atpazīšana, lielie valodas modeļi, kļūdu labošana.
Atslēgas vārdi angļu valodā Optical character recognition, Large Language Models, error correction
Valoda lv
Gads 2025
Darba augšupielādes datums un laiks 27.05.2025 23:08:14