Analysis of Data Pre-Processing Methods for Machine Learning

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Bachelor
Title of the study programm	Computer Systems
Title in original language	Datu priekšapstrādes metožu analīze izmantošanai mašīnmācīšanā
Title in English	Analysis of Data Pre-Processing Methods for Machine Learning
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Ilze Andersone
Reviewer	Mihails Ivanovs
Abstract	Pēdējās desmitgadēs mašīnmācīšanās algoritmi ir bijuši līderi progresā daudzās jomās un palīdzējuši uzlabot esošās zināšanas. Pirms tā izmantošanas jebkurā lietojumā ir kritiski svarīgi interpretēt pieejamos datus. Datu kopu kvalitātes novērtējums pēc inteliģenti definētiem mērījumiem un ar tiem saistīto transformāciju operāciju veidošana kvalitātes trūkumu novēršanai palīdz samazināt datu zinātnieku, Mašīnmācīšanās Inženieru darbu iteratīvās atkļūdošanas procesā Mašīnmācīšanās Caurulē, lai uzlabotu modeļa veiktspēju (Jain et al., 2020). Datu apstrāde ir būtiska neapstrādātu datu sagatavošanai datu analīzei un datu vadītas lēmumu pieņemšanas efektivitātei. Datu apstrāde nodrošina, ka dati ir precīzi un konsekventi, kas uzlabo analīzi un lēmumu pieņemšanu (Medium, 2022a). Datu apstrādes metodes var palīdzēt izveidot datu vizualizācijas, atvieglojot analīzi un atklājot modeļu tendences. Datu apstrāde var palīdzēt uzlabot Mašīnmācīšanās algoritmu efektivitāti, uzlabojot datu kvalitāti, samazinot troksni un novirzes, un identificējot noderīgas funkcijas. Saskaņā ar Google pētījumu, datu apstrādes metodes, piemēram, normalizācija un funkciju mērogošana, var ievērojami paaugstināt Mašīnmācīšanās modeļu veiktspēju. Autors ir izvēlējies pārskatīt dažādas datu apstrādes metodes un to piemērošanu mašīnmācīšanās algoritmiem, bet šī bakalaura darba ietvaros ir aplūkotas tikai dažas mašīnmācīšanās algoritmu grupas, kas ir neironu tīkli, K-vidējo klastošana un lēmumu koki, lai ierobežotu darba apjomu. Datu apstrādi atbalsta vairākas programmēšanas valodas, tostarp Python, R, Java un SQL. Python tiek izmantots datu apstrādei tā ērtas lietošanas, pielāgojamības un plašā bibliotēku un rīku klāsta dēļ, tostarp tiem, kas izveidoti tieši datu apstrādei un analīzei, piemēram, NumPy, Pandas un Scikit-learn (McKinney, 2017). Šīs bibliotēkas un rīki nodrošina efektīvas un viegli lietojamas funkcijas datu analīzei, datu vizualizācijai un datu manipulācijai. Bakalaura darbs sastāv no trim nodaļām, kuru kopējais apjoms ir 86 lappuses. Tajā iekļauti 95 literatūras avoti, 10 attēli, 11 tabulas un trīs pielikumi, kas ietver datu apstrādes kodu, apstrādātu datu paraugus un mašīnmācīšanās algoritmu precizitātes ekrānuzņēmumus pirms
Keywords	Datu apstrāde, Mašīnmācīšanās, datu tīrīšana, datu manipulēšana
Keywords in English	Data preprocessing, Machine learning, data cleaning, data wrangling
Language	lv
Year	2024
Date and time of uploading	06.01.2024 00:06:44