Studiju veids |
bakalaura akadēmiskās studijas |
Studiju programmas nosaukums |
Datorsistēmas |
Nosaukums |
Python bibliotēku salīdzinošā analīze liela apjoma teksta failu apstrādei |
Nosaukums angļu valodā |
Comparative Analysis of Python Libraries for Processing Large Text Files |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
Aleksejs Jurenoks |
Recenzents |
Gusts Linkevičs |
Anotācija |
Atslēgvārdi: Lielie dati, Python, teksta apstrāde, datu analīze, bibliotēkas
Šis bakalaura darbs ir veltīts Python rīku salīdzinājumam, strādājot ar lieliem teksta failiem. Darba mērķi ir: noskaidrot, kura bibliotēka vislabāk darbojas ar lieliem teksta failiem un patiesībā ir visefektīvākā šajā ziņā, kā arī nodrošināt objektīvus šo bibliotēku salīdzinājumus. Četras izvēlētās bibliotēkas (Pandas, Dask, PySpark, smart_open) tiek salīdzinātas pēc to lejupielāžu biežuma, popularitātes GitHub, to veiktspējas, strādājot ar lieliem datiem, un aktīvo lietotāju skaita. Šie ir iegūtie rezultāti, un, pamatojoties uz dažādu programmatūras bibliotēku testēšanas rezultātiem, redzams, ka bibliotēka smart_open ieguva augstāko kopējo vērtējumu, apstiprinot tās efektivitāti un lietošanas ērtumu starp dažādajām bibliotēkām. Tomēr katrai no tām ir savas stiprās un vājās puses, un izvēle jāveic, ņemot vērā kontekstu, kurā tās tiks izmantotas. Secinājumu sadaļā ir norādīts, kā izvēlēties konkrētas bibliotēkas noteiktām datu apstrādes vajadzībām.
Darbs satur 87 lapas, 1 attēlu, 21 tabulu, 46 informācijas avotus un 14 pielikumus. |
Atslēgas vārdi |
Lielie dati, Python, teksta apstrāde, datu analīze, bibliotēkas |
Atslēgas vārdi angļu valodā |
Big Data, Python, Text Processing, Data Analysis, Libraries |
Valoda |
lv |
Gads |
2024 |
Darba augšupielādes datums un laiks |
28.05.2024 23:12:53 |