Abstract |
Pēdējās desmitgadēs mašīnmācīšanās algoritmi ir bijuši līderi progresā daudzās jomās un palīdzējuši uzlabot esošās zināšanas. Pirms tā izmantošanas jebkurā lietojumā ir kritiski svarīgi interpretēt pieejamos datus. Datu kopu kvalitātes novērtējums pēc inteliģenti definētiem mērījumiem un ar tiem saistīto transformāciju operāciju veidošana kvalitātes trūkumu novēršanai palīdz samazināt datu zinātnieku, Mašīnmācīšanās Inženieru darbu iteratīvās atkļūdošanas procesā Mašīnmācīšanās Caurulē, lai uzlabotu modeļa veiktspēju (Jain et al., 2020). Datu apstrāde ir būtiska neapstrādātu datu sagatavošanai datu analīzei un datu vadītas lēmumu pieņemšanas efektivitātei. Datu apstrāde nodrošina, ka dati ir precīzi un konsekventi, kas uzlabo analīzi un lēmumu pieņemšanu (Medium, 2022a). Datu apstrādes metodes var palīdzēt izveidot datu vizualizācijas, atvieglojot analīzi un atklājot modeļu tendences. Datu apstrāde var palīdzēt uzlabot Mašīnmācīšanās algoritmu efektivitāti, uzlabojot datu kvalitāti, samazinot troksni un novirzes, un identificējot noderīgas funkcijas. Saskaņā ar Google pētījumu, datu apstrādes metodes, piemēram, normalizācija un funkciju mērogošana, var ievērojami paaugstināt Mašīnmācīšanās modeļu veiktspēju. Autors ir izvēlējies pārskatīt dažādas datu apstrādes metodes un to piemērošanu mašīnmācīšanās algoritmiem, bet šī bakalaura darba ietvaros ir aplūkotas tikai dažas mašīnmācīšanās algoritmu grupas, kas ir neironu tīkli, K-vidējo klastošana un lēmumu koki, lai ierobežotu darba apjomu.
Datu apstrādi atbalsta vairākas programmēšanas valodas, tostarp Python, R, Java un SQL. Python tiek izmantots datu apstrādei tā ērtas lietošanas, pielāgojamības un plašā bibliotēku un rīku klāsta dēļ, tostarp tiem, kas izveidoti tieši datu apstrādei un analīzei, piemēram, NumPy, Pandas un Scikit-learn (McKinney, 2017). Šīs bibliotēkas un rīki nodrošina efektīvas un viegli lietojamas funkcijas datu analīzei, datu vizualizācijai un datu manipulācijai.
Bakalaura darbs sastāv no trim nodaļām, kuru kopējais apjoms ir 86 lappuses. Tajā iekļauti 95 literatūras avoti, 10 attēli, 11 tabulas un trīs pielikumi, kas ietver datu apstrādes kodu, apstrādātu datu paraugus un mašīnmācīšanās algoritmu precizitātes ekrānuzņēmumus pirms |