Dabiskās latviešu valodas runas ģenerēšana no teksta, izmantojot ierobežota apjoma datu kopu

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Viedās datortehnoloģijas
Nosaukums	Dabiskās latviešu valodas runas ģenerēšana no teksta, izmantojot ierobežota apjoma datu kopu
Nosaukums angļu valodā	Natural Latvian Speech Generation from Text Using a Limited-Size Dataset
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Katrīna Šmite
Recenzents	Alla Anohina-Naumeca
Anotācija	Darbs atbilst 2.tipam – aktuālo jomas problēmu risinājumi. Teksta pārvēršanas runā tehnoloģijas tiek plaši izmantotas dažādās jomās, piemēram, cilvēkiem ar redzes traucējumiem, audiogrāmatās un balss asistentos. Lielākā daļa publiski pieejamo TTS risinājumu ir izstrādāti angļu un citām plaši lietotām valodām, savukārt latviešu valodai, kvalitatīvu, brīvi pieejamu risinājumu un savas datu kopas implementēšanas iespējām risinājumu trūkst. Bakalaura darba mērķis ir izpētīt esošās sistēmas dabiskas latviešu valodas runas ģenerēšanai no teksta un novērtēt to spēju nodrošināt kvalitatīvus rezultātus ierobežotas datu kopas apstākļos, kā arī izvērtēt datu kopas apjoma ietekmi uz runas kvalitāti. Darba teorētiskajā daļā aplūkoti dažādi TTS modeļi, tostarp mūsdienu uz neironu tīkliem balstītas sistēmas, latviešu valodas fonētiskās īpatnības un runas sintēzes kvalitātes novērtēšanas metodes. Praktiskajā daļā tiek izmantots GlowTTS modelis, kas apmācīts ar Mozilla Common Voice latviešu valodas datu kopu dažādos apjomos – 100 % (4983 teikumi), 75 % (3737 teikumi) un 50 % (2492). Iegūtā runas kvalitāte tiek novērtēta gan subjektīvi, aptaujājot respondentus, gan objektīvi ar vārdu kļūdu īpatsvara aprēķinu, izmantojot Whisper automātiskās runas atpazīšanas modeli. Iegūtie rezultāti apliecina, ka datu kopas apjoms ir būtiskākais faktors, kas ietekmē ģenerētās runas kvalitāti, respektīvi modelis ar 100 % datu kopu sasniedza vidējo subjektīvo vērtējumu 4,0 Likerta skalā. Vārdu kļūdu īpatsvars 25 %, tomēr modelis ar 50 % datu kopu sasniedza vērtējumu 2,5 ar vārdu kļūdu īpatsvaru 87,5 %. Starp 75 % un 100 % datu kopas apjomu kvalitātes atšķirība nebija tik izteikta kā starp 50 % un pārējiem modeļiem, kas norāda uz iespējamu datu apjoma robežu, zem kuras modeļa ģenerētā audio kvalitāte pasliktinās. Darbs apliecina, ka latviešu valodas runas sintēze ir iespējama, ja tiek izmantota arī salīdzinoši ierobežota datu kopu (4983 teikumi). Lai gan komerciālie risinājumi piedāvā ātrāku un kvalitatīvāku rezultātu, autore darbā parādīja, ka ir iespējams lietotājam izmantot savu datu kopu un apmācīt modeli. Bakalaura darba apjoms ir 52 lappuses. Darbā ir 2 attēli, 14 tabulas, 1 pielikums un 40 informācijas avoti.
Atslēgas vārdi	RUNAS SINTĒZE, TEKSTA PĀRVĒRŠANA RUNĀ, LATVIEŠU VALODA, TTS.
Atslēgas vārdi angļu valodā	SPEECH SYNTHESIS, TEXT-TO-SPEECH, LATVIAN LANGUAGE, TTS.
Valoda	lv
Gads	2026
Darba augšupielādes datums un laiks	26.05.2026 14:16:23