| Studiju veids |
maģistra akadēmiskās studijas |
| Studiju programmas nosaukums |
Datorsistēmas |
| Nosaukums |
Datu integrācijas un tīrīšanas metodes strukturētiem lielapjoma datiem |
| Nosaukums angļu valodā |
Integration and Cleansing Methods for Structured Big Data |
| Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
| Darba vadītājs |
Ilze Birzniece |
| Recenzents |
Māra Romanovska |
| Anotācija |
Mūsdienu lielo datu vidē datu kvalitātes nodrošināšana un efektīva integrācija ir būtisks priekšnoteikums precīzai analīzei un uzticamiem lēmumiem. Šis maģistra darbs fokusējas uz strukturētu lielapjoma datu attīrīšanas un integrācijas metožu izpēti, īpašu uzmanību pievēršot semantiskajai atbilstībai, metadatu izmantošanai un uz domēna zināšanām balstītai validācijai. Darbā tiek salīdzinātas tradicionālas un mūsdienīgas pieejas, kā arī analizēta holistisku stratēģiju piemērotība datu kvalitātes problēmu risināšanā.
Darba praktiskajā daļā izmantoti sintētiski veselības aprūpes dati ar mākslīgi ieviestām tipiskām datu kvalitātes kļūdām, kā piemēram dublikāti un iztrūkstošās vērtības . Tika izstrādāts un testēts reproducējams risinājums, kas, izmantojot atvērtā koda paralēlās un izkliedētās apstrādes rīkus (t.sk. Apache Spark, PySpark, Hadoop/HDFS), veic datu kvalitātes novērtēšanu un attīrīšanu dažādos formātos: CSV, Parquet, Avro, JSON. Izveidotais modelis apvieno datu shēmas, metadatu analīzi, semantiskās attiecības un starptabulu loģisko validāciju vienotā, paplašināmā sistēmā.
Darba rezultāts ir gan konceptuāls, gan praktisks ieguldījums datu kvalitātes uzlabošanā strukturētos lielapjoma datos, piedāvājot atkārtojamu, modulāru un uz domēnu orientētu risinājumu, ko iespējams pielāgot arī citiem pielietojuma kontekstiem. |
| Atslēgas vārdi |
lielie dati, datu kvalitāte, datu integrācija, datu attīrīšana, metadati, semantika, holistiskā paradigma |
| Atslēgas vārdi angļu valodā |
big data, data quality, data integration, data cleansing, metadata, semantics, holistic approach |
| Valoda |
lv |
| Gads |
2025 |
| Darba augšupielādes datums un laiks |
27.05.2025 12:07:16 |