Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language Optiskās rakstzīmju atpazīšanas kļūdu labošana, izmantojot lielos valodas modeļus
Title in English Error Correction of Optical Character Recognition Using Large Language Models
Department Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor Gints Jēkabsons
Reviewer Katrīna Šmite
Abstract Šis bakalaura darbs aplūko tēmas, kas ir saistītas ar optisko rakstzīmju atpazīšanas pamatprincipiem un optisko rakstzīmju atpazīšanas sistēmas kļūdu labošanu, izmantojot lielos valodas modeļus, kā arī klasiskos algoritmus. Darba mērķis ir izpētīt Lielo Valodas Modeļu efektivitāti optisko rakstzīmju kļūdu labošanā latviešu valodā, salīdzinot tos ar klasiskajiem kļūdu labošanas algoritmiem, lai pārliecinātos, kura pieeja garantē labākus rezultātus. Par pamatu klasiskajiem kļūdu labošanas algoritmiem tika izvēlēts Levenšteina distances algoritms un N-gramma algoritms. BLOOM-560M, mT5-small un mT5-base tika izvēlēti kā lokāli implementējamie Lielie valodas modeļi. DeepSeek-V3 tika izvēlēts tā parametru skaita dēļ. No veiktajiem eksperimentiem var secināt, ka klasiskie kļūdu labošanas algoritmi veic mazus, bet stabilus uzlabojumus vārda līmenī. Visi lokāli implementētie LLM nespēja labot kļūdas latviešu valodā ne vārda, ne rakstzīmju līmenī. DeepSeek-V3 lielais valodas modelis spēj efektīvāk labot OCR kļūdas latviešu valodā nekā klasiskie kļūdu labošanas algoritmi.
Keywords Optiskā rakstzīmju atpazīšana, lielie valodas modeļi, kļūdu labošana.
Keywords in English Optical character recognition, Large Language Models, error correction
Language lv
Year 2025
Date and time of uploading 27.05.2025 23:08:14