Anotācija |
Šī bakalaura darba ietvaros tika izveidota mākslīgajā intelektā balstīta subtitru tulkošanas sistēma, kas specializēta tieši lekciju video subtitru tulkošanai no angļu valodas latviešu valodā. Tā kā izglītības programma Latvijā ir mainīga un bieži tiek papildināta ar jaunām prasmēm un zināšanām, kas jauniešiem jāapgūst, lai spētu konkurēt darba tirgū, ir vajadzīgi arvien jauni mācību materiāli. Tā vietā, lai radītu jaunas mācību grāmatas un citus materiālus, tulkot esošus materiālus, ko radījuši uzticami avoti, piemēram, pasaulē vadošās augstskolas, kā Harvardas universitāte, nozīmē ietaupīt resursus, samazinot veicamo darbu. Šāda pieeja ļauj gan veidot uzticamus materiālus bez kļūdām, gan radina jauniešus pie patstāvīga darba un starptautiskās augstskolās īstenotā mācību procesa. Bakalaura darba ietvaros tika tulkots Hārvardas universitātes kursa “Ievads datorzinātnē” saturs lekciju subtitru formātā. Sistēmas radīšanu un tai izvēlētās tehnoloģijas pamato eksistējošo risinājumu apraksts literatūras apskatā, kur lasāms par mašīntulkošanas un SRT failu specifiku. Sistēmas veidošanai izmantots Google AutoML Translation trenējamais mašīnmācīšanās modelis tulkošanai, kā arī Python valoda datu un failu apstrādei. Google AutoML Translation modeļa divreizējai apmācībai izmantoti profesionālu tulku tulkoti Hārvardas universitātes kursa “Ievads datorzinātnē” lekciju subtitri. Pirmajai apmācībai tika izmantoti 422 teikumi no lekciju satura. Otrajai apmācībai tika izmantoti apmēram 1000 konkrētu terminu vai īsu frāžu tulkojumi no lekciju satura. Apmācīto modeļu tulkojumu kvalitāte tiek mērīta, izvēloties nejaušus fragmentus no trenētā modeļa tulkoto tekstu kopas un manuāli izvērtējot tos Multidimensionālās Kvalitātes Metrikas (MQM) kontekstā, kā arī dokumentējot Google rēķināto BLEU metriku. Pirmais modelis pēc trenēšanas BLEU skalā vērtējams ar 69.15. 2-4% teikumu, salīdzinot ar netrenēta modeļa tulkojumiem, vērojamas izmaiņas. Izvērtējot nejaušus fragmentus MQM kontekstā, secināts, ka modeļa tulkojumu galvenās kļūdas ir neprecīzas nozīmes tulkojumi, stila kļūdas un terminoloģijas kļūdas. Otrais modelis sasniedza 66.29 BLEU vērtējumu. Salīdzinot ar pirmo modeli, otrais 311 teikumus tulkoja citādi, no kuriem 197 tulkojumu kvalitāte uzlabojās, bet 114 – kļuva zemāka. Galvenie uzlabojumi bija vērojami tieši, uzlabojot neprecīzas nozīmes tulkojumus un stila kļūdas.
Augsto BLEU vērtējumu izskaidro tulkojumu strukturālā līdzība ar oriģināliem. Mazā treniņu datu apjoma dēļ modelis nespēja iemācīties latviešu valodai raksturīgo teikumu struktūru, frazeoloģismu tulkojumus un gramatikas sakarības. Tādēļ ir saglabājusies liela līdzība ar bāzes modeļa tulkojumiem, tikai atsevišķi vārdi vai vārdu kārtība ir mainījusies. Mācību procesā šādi tulkojumi nav derīgi, jo tos ir grūti saprast. Papildus grūtības rodas tādēļ, ka tulkojamais teksts ir dokumentēta cilvēka runa – fragmentāra, ar atkārtotiem vārdiem un vietām neskaidru struktūru un sarunvalodas stilā veidota. Papildus sarežģītajam uzdevumam, rezultāta sasniegšanu traucēja ierobežotā piekļuve resursiem, piemēram, Google AutoML Translation modeļa trenēšanai, kā arī laika trūkums, kā dēļ nebija iespējams modeļu tulkojumu vērtēšanai piesaistīt profesionālus tulkus.
Lai gan otrajā trenēšanas reizē tikai sasniegti kvalitātes uzlabojumi, netika izpildīts mērķis sasniegt tulkojumu kvalitāti pietiekamu, lai pēc tulkošanas dati nebūtu papildus jāuzlabo. Izstrādātā darba rezultātā ir pieejama tulkošanas sistēma, kas ar papildus trenēšanu var sasniegt kvalitatīvus tulkojumus. Svarīgākais turpmākā darba uzdevums ir veidot plašu treniņa datu kopu, kurā pastāvīgi un dažādi izmantoti pareizi terminu tulkojumi un nav kļūdu.
Šis diplomdarbs ir rakstīts angļu valodā, tas satur 70 lapas, 7 attēlus, 4 tabulas, 3 pielikumus, katru 2 tabulas saturošus, un 52 avotus. |