| Studiju veids |
bakalaura akadēmiskās studijas |
| Studiju programmas nosaukums |
Viedās datortehnoloģijas |
| Nosaukums |
Intelektuālas tīmekļa datu izgūšanas metodoloģijas izstrāde |
| Nosaukums angļu valodā |
Developing an Intelligence Web Data Mining Methodology |
| Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
| Darba vadītājs |
Aleksejs Jurenoks |
| Recenzents |
Daniels Gorovojs |
| Anotācija |
Mūsdienu pasaulē mēs esam nepārtraukti apņemti ar informāciju, un atrast
patiesi svarīgu un nepieciešamu informāciju var būt visai grūti, jo īpaši, ja runa ir par
informācijas iegūšanu zinātniskam darbam vai mācību projektam. Dažas uzdevums
prasa no mums liela daudzuma datu vākšanu un apstrādi no dažādiem avotiem, bet
darbs ar šādiem datiem manuāli aizņem ļoti daudz laika, tāpēc tika pieņemts lēmums
izstrādāt savu datu ieguves metodiku.
Šis pētījums balstās uz datu ieguves darbības principa, tā sastāvdaļu un visu
nepieciešamo posmu izpēti, lai sagatavotu “neapstrādātus” datus izmantošanai, sākot
no to vākšanas no tīmekļa lapām līdz automātiskai datu sadalei pa klasteriem un klasēm.
Lai demonstrētu izstrādātās metodoloģijas darbspēju, tika izveidots darbojošs
lietojumprogrammas prototips Python valodā, kas ļauj vākt virsrakstus un ziņu saturu
no pazīstamiem Latvijas ziņu portāliem, attīrot tos no reklāmām un tukša satura, atstājot
tikai lietotājam svarīgos datus, un pēc tam šos datus šķirot atsevišķos klasteros un
klasēs, izmantojot mašīnmācīšanās metodes.
Eksperimentu gaitā tika atklātas labākās klasifikācijas un klasterizācijas
metodes darbam ar teksta datiem, izmantojot ziņu piemēru. Tika noskaidrots arī, ka
neatkarīgi no ziņu izcelsmes izstrādātā metodoloģija spēj veikt visas uzdevumus.
Darba pamattekstā ir 57 lappuses, 22 attēli, 17 tabulas, 12 pielikumi un 42
izmantotie informācijas avoti. |
| Atslēgas vārdi |
Datu ieguve, Mašīnmācīšanās, lielie dati |
| Atslēgas vārdi angļu valodā |
Data mining, Machine learning, Big data |
| Valoda |
lv |
| Gads |
2025 |
| Darba augšupielādes datums un laiks |
02.09.2025 19:26:06 |