Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids maģistra akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Datu integrācijas un tīrīšanas metodes strukturētiem lielapjoma datiem
Nosaukums angļu valodā Integration and Cleansing Methods for Structured Big Data
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Ilze Birzniece
Recenzents Māra Romanovska
Anotācija Mūsdienu lielo datu vidē datu kvalitātes nodrošināšana un efektīva integrācija ir būtisks priekšnoteikums precīzai analīzei un uzticamiem lēmumiem. Šis maģistra darbs fokusējas uz strukturētu lielapjoma datu attīrīšanas un integrācijas metožu izpēti, īpašu uzmanību pievēršot semantiskajai atbilstībai, metadatu izmantošanai un uz domēna zināšanām balstītai validācijai. Darbā tiek salīdzinātas tradicionālas un mūsdienīgas pieejas, kā arī analizēta holistisku stratēģiju piemērotība datu kvalitātes problēmu risināšanā. Darba praktiskajā daļā izmantoti sintētiski veselības aprūpes dati ar mākslīgi ieviestām tipiskām datu kvalitātes kļūdām, kā piemēram dublikāti un iztrūkstošās vērtības . Tika izstrādāts un testēts reproducējams risinājums, kas, izmantojot atvērtā koda paralēlās un izkliedētās apstrādes rīkus (t.sk. Apache Spark, PySpark, Hadoop/HDFS), veic datu kvalitātes novērtēšanu un attīrīšanu dažādos formātos: CSV, Parquet, Avro, JSON. Izveidotais modelis apvieno datu shēmas, metadatu analīzi, semantiskās attiecības un starptabulu loģisko validāciju vienotā, paplašināmā sistēmā. Darba rezultāts ir gan konceptuāls, gan praktisks ieguldījums datu kvalitātes uzlabošanā strukturētos lielapjoma datos, piedāvājot atkārtojamu, modulāru un uz domēnu orientētu risinājumu, ko iespējams pielāgot arī citiem pielietojuma kontekstiem.
Atslēgas vārdi lielie dati, datu kvalitāte, datu integrācija, datu attīrīšana, metadati, semantika, holistiskā paradigma
Atslēgas vārdi angļu valodā big data, data quality, data integration, data cleansing, metadata, semantics, holistic approach
Valoda lv
Gads 2025
Darba augšupielādes datums un laiks 27.05.2025 12:07:16