Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Datu priekšapstrādes metožu analīze izmantošanai mašīnmācīšanā
Nosaukums angļu valodā Analysis of Data Pre-Processing Methods for Machine Learning
Struktūrvienība 12300 Lietišķo datorsistēmu institūts
Darba vadītājs Ilze Andersone
Recenzents Mihails Ivanovs
Anotācija Pēdējās desmitgadēs mašīnmācīšanās algoritmi ir bijuši līderi progresā daudzās jomās un palīdzējuši uzlabot esošās zināšanas. Pirms tā izmantošanas jebkurā lietojumā ir kritiski svarīgi interpretēt pieejamos datus. Datu kopu kvalitātes novērtējums pēc inteliģenti definētiem mērījumiem un ar tiem saistīto transformāciju operāciju veidošana kvalitātes trūkumu novēršanai palīdz samazināt datu zinātnieku, Mašīnmācīšanās Inženieru darbu iteratīvās atkļūdošanas procesā Mašīnmācīšanās Caurulē, lai uzlabotu modeļa veiktspēju (Jain et al., 2020). Datu apstrāde ir būtiska neapstrādātu datu sagatavošanai datu analīzei un datu vadītas lēmumu pieņemšanas efektivitātei. Datu apstrāde nodrošina, ka dati ir precīzi un konsekventi, kas uzlabo analīzi un lēmumu pieņemšanu (Medium, 2022a). Datu apstrādes metodes var palīdzēt izveidot datu vizualizācijas, atvieglojot analīzi un atklājot modeļu tendences. Datu apstrāde var palīdzēt uzlabot Mašīnmācīšanās algoritmu efektivitāti, uzlabojot datu kvalitāti, samazinot troksni un novirzes, un identificējot noderīgas funkcijas. Saskaņā ar Google pētījumu, datu apstrādes metodes, piemēram, normalizācija un funkciju mērogošana, var ievērojami paaugstināt Mašīnmācīšanās modeļu veiktspēju. Autors ir izvēlējies pārskatīt dažādas datu apstrādes metodes un to piemērošanu mašīnmācīšanās algoritmiem, bet šī bakalaura darba ietvaros ir aplūkotas tikai dažas mašīnmācīšanās algoritmu grupas, kas ir neironu tīkli, K-vidējo klastošana un lēmumu koki, lai ierobežotu darba apjomu. Datu apstrādi atbalsta vairākas programmēšanas valodas, tostarp Python, R, Java un SQL. Python tiek izmantots datu apstrādei tā ērtas lietošanas, pielāgojamības un plašā bibliotēku un rīku klāsta dēļ, tostarp tiem, kas izveidoti tieši datu apstrādei un analīzei, piemēram, NumPy, Pandas un Scikit-learn (McKinney, 2017). Šīs bibliotēkas un rīki nodrošina efektīvas un viegli lietojamas funkcijas datu analīzei, datu vizualizācijai un datu manipulācijai. Bakalaura darbs sastāv no trim nodaļām, kuru kopējais apjoms ir 86 lappuses. Tajā iekļauti 95 literatūras avoti, 10 attēli, 11 tabulas un trīs pielikumi, kas ietver datu apstrādes kodu, apstrādātu datu paraugus un mašīnmācīšanās algoritmu precizitātes ekrānuzņēmumus pirms
Atslēgas vārdi Datu apstrāde, Mašīnmācīšanās, datu tīrīšana, datu manipulēšana
Atslēgas vārdi angļu valodā Data preprocessing, Machine learning, data cleaning, data wrangling
Valoda lv
Gads 2024
Darba augšupielādes datums un laiks 06.01.2024 00:06:44