Studiju veids |
bakalaura akadēmiskās studijas |
Studiju programmas nosaukums |
Intelektuālas robotizētas sistēmas |
Nosaukums |
Runas atpazīšanas priekšapstrādes metožu salīdzināšana |
Nosaukums angļu valodā |
Comparison of Pre-Processing Methods for Speech-to-Text |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
Ēvalds Urtāns |
Recenzents |
Olga Krutikova |
Anotācija |
Runas atpazīšana atvieglo pierakstu veikšanu, kā arī tā tiek izmantota tādās tehnoloģijās kā balss asistenti tālruņos un palīdz cilvēkiem ar redzes traucējumiem. Tomēr neskatoties uz to augsto pieprasījumu, automātiskajā teksta izvadē joprojām ir sastopamas kļūdas.
Šajā darbā tika veikta salīdzināšana runas atpazīšanas metriku rezultātiem izmantojot priekšapstrādes metodes jeb precīzāk - vai ir iespējams uzlabot metriku rezultātus, kas iegūti no runas atpazīšanas, ja tam pirms tam veic priekšapstrādi, runas stilu pārnesot uz kādu konkrētu runātāju uz kuru ir trenēts runas atpazīšanas modelis.
Kopumā darbā tika noskaidrots, ka apmācot Whisper (Radford, Kim et al., 2022) runas atpazīšanas modeli uz konkrētu runātāju no VCTK (Veaux, Yamagishi et al., 2017) datu kopas, pēc tam veicot runas stila pārnesi ar FreeVC (Li, Tu et al., 2022) uz to pašu konkrēto runātāju, ir iespējams iegūt labākus rezultātus nekā tad, ja runas atpazīšanas modelis ir trenēts uz visas datu kopas un tam pirms tam nav veikta nekāda priekšapstrāde.
Rezultātu metriku uzlabojums ir sākot ar 34% no datu kopas runātāju līdz pat 91% no datu kopas runātāju. Vislabāko sniegumu parāda runas atpazīšanas modelis, kas trenēts uz p254 runātāju, kur, pārveidojot visus datu kopas runātājus uz p254 runātāja stilu, parāda 74% un 73% runātāju uzlabojumu vārdu kļūdas līmeņa un normalizētās vārdu kļūdas līmeņa metrikām un 86% un 91% runātāju uzlabojumu rakstzīmes kļūdas līmeņa un normalizētajai rakstzīmes kļūdas līmeņa metrikām. |
Atslēgas vārdi |
RUNAS ATPAZĪŠANA, PRIEKŠAPSTRĀDES METODES, RUNAS STILA PĀRNESE, RUNAS ATTĪRĪŠANA |
Atslēgas vārdi angļu valodā |
SPEECH RECOGNITION, PRE-PROCESSING METHODS, SPEECH STYLE TRANSFER, SPEECH ENHANCEMENT |
Valoda |
lv |
Gads |
2023 |
Darba augšupielādes datums un laiks |
30.05.2023 22:39:42 |