Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums RDD, Data Frame un Dataset iespēju salīdzinājums lielo datu apstrādē izmantojot Apache Spark un Scala
Nosaukums angļu valodā RDD Data Frame and Dataset Capability Comparison in Big data Using Apache Spark and Scala
Struktūrvienība 12300 Lietišķo datorsistēmu institūts
Darba vadītājs Ainārs Auziņš
Recenzents Lietišķo datorsistēmu institūta pētnieks A.Gaidukovs
Anotācija Darbā tiek apskatītas atklātā pirmkoda iekšatmiņas klastera datošanas ietvara Apache Spark pieejamās optimizācijas un interfeisi - Izturīga sadalīta datu kopa (angļu val. Resilient Distributed Dataset (RDD)), Datu rāmis(angļu val. Data Frame) un Datu kopa (angļu val. Data Set). Darbā tiek analizēts Izturīgas sadalītas datu kopas, Datu rāmja un Datu kopas darbība, lai izvērtētu, kurās situācijās labāk izmantot kādu no apskatītajiem interfeisiem efektīvākai datu apstrādei. Darbs satur pētījumu par to, kas ir Apache Spark, kā to izmantot lielo datu apstrādē un kā atšķiras programmatūrā pieejamās optimizācijas un iepriekš minētie interfeisi pēc savas uzbūves un darbības. Praktiski tika apskatīts, kā atšķiras dažādu SQL transformāciju izpildes ātrums, izmantojot Izturīgu sadalītu datu kopu, Datu rāmi un Datu kopu, apstrādājot dažāda izmēra testa datus. Salīdzinājumos pierādījās, ka Datu rāmja programmēšanas interfeiss ir visātrākais no trim apskatītajiem interfeisiem veicot standarta SQL transformācijas 10 - 30% ātrāk nekā Datu kopas interfeiss, salīdzinājumā arī atklājās, ka Izturīga sadalīta datu kopas interfeiss nespēj efektīvi apstrādāt lielus datu apjomus bez manuālas, specifiskas optimizācijas. Darba pamattekstā ir 55 lappuses, 19 attēli, 5 tabulas, 21 informācijas avots un 4 pielikumi.
Atslēgas vārdi LIELIE DATI, APACHE SPARK, DATU INŽENIERIJA, DATU ANALĪTIKA, KLASTERI
Atslēgas vārdi angļu valodā BIG DATA, APACHE SPARK, DATA ENINGEERING, DATA ANALYTICS, CLUSTERS
Valoda lv
Gads 2020
Darba augšupielādes datums un laiks 16.06.2020 13:33:00