Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language RDD, Data Frame un Dataset iespēju salīdzinājums lielo datu apstrādē izmantojot Apache Spark un Scala
Title in English RDD Data Frame and Dataset Capability Comparison in Big data Using Apache Spark and Scala
Department 12300 Institute of Applied Computer Systems
Scientific advisor Ainārs Auziņš
Reviewer Lietišķo datorsistēmu institūta pētnieks A.Gaidukovs
Abstract Darbā tiek apskatītas atklātā pirmkoda iekšatmiņas klastera datošanas ietvara Apache Spark pieejamās optimizācijas un interfeisi - Izturīga sadalīta datu kopa (angļu val. Resilient Distributed Dataset (RDD)), Datu rāmis(angļu val. Data Frame) un Datu kopa (angļu val. Data Set). Darbā tiek analizēts Izturīgas sadalītas datu kopas, Datu rāmja un Datu kopas darbība, lai izvērtētu, kurās situācijās labāk izmantot kādu no apskatītajiem interfeisiem efektīvākai datu apstrādei. Darbs satur pētījumu par to, kas ir Apache Spark, kā to izmantot lielo datu apstrādē un kā atšķiras programmatūrā pieejamās optimizācijas un iepriekš minētie interfeisi pēc savas uzbūves un darbības. Praktiski tika apskatīts, kā atšķiras dažādu SQL transformāciju izpildes ātrums, izmantojot Izturīgu sadalītu datu kopu, Datu rāmi un Datu kopu, apstrādājot dažāda izmēra testa datus. Salīdzinājumos pierādījās, ka Datu rāmja programmēšanas interfeiss ir visātrākais no trim apskatītajiem interfeisiem veicot standarta SQL transformācijas 10 - 30% ātrāk nekā Datu kopas interfeiss, salīdzinājumā arī atklājās, ka Izturīga sadalīta datu kopas interfeiss nespēj efektīvi apstrādāt lielus datu apjomus bez manuālas, specifiskas optimizācijas. Darba pamattekstā ir 55 lappuses, 19 attēli, 5 tabulas, 21 informācijas avots un 4 pielikumi.
Keywords LIELIE DATI, APACHE SPARK, DATU INŽENIERIJA, DATU ANALĪTIKA, KLASTERI
Keywords in English BIG DATA, APACHE SPARK, DATA ENINGEERING, DATA ANALYTICS, CLUSTERS
Language lv
Year 2020
Date and time of uploading 16.06.2020 13:33:00