Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Intelektuālas robotizētas sistēmas
Nosaukums Runas atpazīšanas priekšapstrādes metožu salīdzināšana
Nosaukums angļu valodā Comparison of Pre-Processing Methods for Speech-to-Text
Struktūrvienība 12300 Lietišķo datorsistēmu institūts
Darba vadītājs Ēvalds Urtāns
Recenzents Olga Krutikova
Anotācija Runas atpazīšana atvieglo pierakstu veikšanu, kā arī tā tiek izmantota tādās tehnoloģijās kā balss asistenti tālruņos un palīdz cilvēkiem ar redzes traucējumiem. Tomēr neskatoties uz to augsto pieprasījumu, automātiskajā teksta izvadē joprojām ir sastopamas kļūdas. Šajā darbā tika veikta salīdzināšana runas atpazīšanas metriku rezultātiem izmantojot priekšapstrādes metodes jeb precīzāk - vai ir iespējams uzlabot metriku rezultātus, kas iegūti no runas atpazīšanas, ja tam pirms tam veic priekšapstrādi, runas stilu pārnesot uz kādu konkrētu runātāju uz kuru ir trenēts runas atpazīšanas modelis. Kopumā darbā tika noskaidrots, ka apmācot Whisper (Radford, Kim et al., 2022) runas atpazīšanas modeli uz konkrētu runātāju no VCTK (Veaux, Yamagishi et al., 2017) datu kopas, pēc tam veicot runas stila pārnesi ar FreeVC (Li, Tu et al., 2022) uz to pašu konkrēto runātāju, ir iespējams iegūt labākus rezultātus nekā tad, ja runas atpazīšanas modelis ir trenēts uz visas datu kopas un tam pirms tam nav veikta nekāda priekšapstrāde. Rezultātu metriku uzlabojums ir sākot ar 34% no datu kopas runātāju līdz pat 91% no datu kopas runātāju. Vislabāko sniegumu parāda runas atpazīšanas modelis, kas trenēts uz p254 runātāju, kur, pārveidojot visus datu kopas runātājus uz p254 runātāja stilu, parāda 74% un 73% runātāju uzlabojumu vārdu kļūdas līmeņa un normalizētās vārdu kļūdas līmeņa metrikām un 86% un 91% runātāju uzlabojumu rakstzīmes kļūdas līmeņa un normalizētajai rakstzīmes kļūdas līmeņa metrikām.
Atslēgas vārdi RUNAS ATPAZĪŠANA, PRIEKŠAPSTRĀDES METODES, RUNAS STILA PĀRNESE, RUNAS ATTĪRĪŠANA
Atslēgas vārdi angļu valodā SPEECH RECOGNITION, PRE-PROCESSING METHODS, SPEECH STYLE TRANSFER, SPEECH ENHANCEMENT
Valoda lv
Gads 2023
Darba augšupielādes datums un laiks 30.05.2023 22:39:42