Datu priekšapstrādes metožu analīze izmantošanai mašīnmācīšanā

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Datorsistēmas
Nosaukums	Datu priekšapstrādes metožu analīze izmantošanai mašīnmācīšanā
Nosaukums angļu valodā	Analysis of Data Pre-Processing Methods for Machine Learning
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Ilze Andersone
Recenzents	Mihails Ivanovs
Anotācija	Pēdējās desmitgadēs mašīnmācīšanās algoritmi ir bijuši līderi progresā daudzās jomās un palīdzējuši uzlabot esošās zināšanas. Pirms tā izmantošanas jebkurā lietojumā ir kritiski svarīgi interpretēt pieejamos datus. Datu kopu kvalitātes novērtējums pēc inteliģenti definētiem mērījumiem un ar tiem saistīto transformāciju operāciju veidošana kvalitātes trūkumu novēršanai palīdz samazināt datu zinātnieku, Mašīnmācīšanās Inženieru darbu iteratīvās atkļūdošanas procesā Mašīnmācīšanās Caurulē, lai uzlabotu modeļa veiktspēju (Jain et al., 2020). Datu apstrāde ir būtiska neapstrādātu datu sagatavošanai datu analīzei un datu vadītas lēmumu pieņemšanas efektivitātei. Datu apstrāde nodrošina, ka dati ir precīzi un konsekventi, kas uzlabo analīzi un lēmumu pieņemšanu (Medium, 2022a). Datu apstrādes metodes var palīdzēt izveidot datu vizualizācijas, atvieglojot analīzi un atklājot modeļu tendences. Datu apstrāde var palīdzēt uzlabot Mašīnmācīšanās algoritmu efektivitāti, uzlabojot datu kvalitāti, samazinot troksni un novirzes, un identificējot noderīgas funkcijas. Saskaņā ar Google pētījumu, datu apstrādes metodes, piemēram, normalizācija un funkciju mērogošana, var ievērojami paaugstināt Mašīnmācīšanās modeļu veiktspēju. Autors ir izvēlējies pārskatīt dažādas datu apstrādes metodes un to piemērošanu mašīnmācīšanās algoritmiem, bet šī bakalaura darba ietvaros ir aplūkotas tikai dažas mašīnmācīšanās algoritmu grupas, kas ir neironu tīkli, K-vidējo klastošana un lēmumu koki, lai ierobežotu darba apjomu. Datu apstrādi atbalsta vairākas programmēšanas valodas, tostarp Python, R, Java un SQL. Python tiek izmantots datu apstrādei tā ērtas lietošanas, pielāgojamības un plašā bibliotēku un rīku klāsta dēļ, tostarp tiem, kas izveidoti tieši datu apstrādei un analīzei, piemēram, NumPy, Pandas un Scikit-learn (McKinney, 2017). Šīs bibliotēkas un rīki nodrošina efektīvas un viegli lietojamas funkcijas datu analīzei, datu vizualizācijai un datu manipulācijai. Bakalaura darbs sastāv no trim nodaļām, kuru kopējais apjoms ir 86 lappuses. Tajā iekļauti 95 literatūras avoti, 10 attēli, 11 tabulas un trīs pielikumi, kas ietver datu apstrādes kodu, apstrādātu datu paraugus un mašīnmācīšanās algoritmu precizitātes ekrānuzņēmumus pirms
Atslēgas vārdi	Datu apstrāde, Mašīnmācīšanās, datu tīrīšana, datu manipulēšana
Atslēgas vārdi angļu valodā	Data preprocessing, Machine learning, data cleaning, data wrangling
Valoda	lv
Gads	2024
Darba augšupielādes datums un laiks	06.01.2024 00:06:44