| Form of studies |
Bachelor |
| Title of the study programm |
Computer Systems |
| Title in original language |
Optiskās rakstzīmju atpazīšanas kļūdu labošana, izmantojot lielos valodas modeļus |
| Title in English |
Error Correction of Optical Character Recognition Using Large Language Models |
| Department |
Faculty Of Computer Science Information Tehnology And Energy |
| Scientific advisor |
Gints Jēkabsons |
| Reviewer |
Katrīna Šmite |
| Abstract |
Šis bakalaura darbs aplūko tēmas, kas ir saistītas ar optisko rakstzīmju atpazīšanas pamatprincipiem un optisko rakstzīmju atpazīšanas sistēmas kļūdu labošanu, izmantojot lielos valodas modeļus, kā arī klasiskos algoritmus. Darba mērķis ir izpētīt Lielo Valodas Modeļu efektivitāti optisko rakstzīmju kļūdu labošanā latviešu valodā, salīdzinot tos ar klasiskajiem kļūdu labošanas algoritmiem, lai pārliecinātos, kura pieeja garantē labākus rezultātus. Par pamatu klasiskajiem kļūdu labošanas algoritmiem tika izvēlēts Levenšteina distances algoritms un N-gramma algoritms. BLOOM-560M, mT5-small un mT5-base tika izvēlēti kā lokāli implementējamie Lielie valodas modeļi. DeepSeek-V3 tika izvēlēts tā parametru skaita dēļ.
No veiktajiem eksperimentiem var secināt, ka klasiskie kļūdu labošanas algoritmi veic mazus, bet stabilus uzlabojumus vārda līmenī. Visi lokāli implementētie LLM nespēja labot kļūdas latviešu valodā ne vārda, ne rakstzīmju līmenī. DeepSeek-V3 lielais valodas modelis spēj efektīvāk labot OCR kļūdas latviešu valodā nekā klasiskie kļūdu labošanas algoritmi. |
| Keywords |
Optiskā rakstzīmju atpazīšana, lielie valodas modeļi, kļūdu labošana. |
| Keywords in English |
Optical character recognition, Large Language Models, error correction |
| Language |
lv |
| Year |
2025 |
| Date and time of uploading |
27.05.2025 23:08:14 |