Abstract |
Atslēgvārdi: Lielie dati, Python, teksta apstrāde, datu analīze, bibliotēkas
Šis bakalaura darbs ir veltīts Python rīku salīdzinājumam, strādājot ar lieliem teksta failiem. Darba mērķi ir: noskaidrot, kura bibliotēka vislabāk darbojas ar lieliem teksta failiem un patiesībā ir visefektīvākā šajā ziņā, kā arī nodrošināt objektīvus šo bibliotēku salīdzinājumus. Četras izvēlētās bibliotēkas (Pandas, Dask, PySpark, smart_open) tiek salīdzinātas pēc to lejupielāžu biežuma, popularitātes GitHub, to veiktspējas, strādājot ar lieliem datiem, un aktīvo lietotāju skaita. Šie ir iegūtie rezultāti, un, pamatojoties uz dažādu programmatūras bibliotēku testēšanas rezultātiem, redzams, ka bibliotēka smart_open ieguva augstāko kopējo vērtējumu, apstiprinot tās efektivitāti un lietošanas ērtumu starp dažādajām bibliotēkām. Tomēr katrai no tām ir savas stiprās un vājās puses, un izvēle jāveic, ņemot vērā kontekstu, kurā tās tiks izmantotas. Secinājumu sadaļā ir norādīts, kā izvēlēties konkrētas bibliotēkas noteiktām datu apstrādes vajadzībām.
Darbs satur 87 lapas, 1 attēlu, 21 tabulu, 46 informācijas avotus un 14 pielikumus. |