Studiju veids |
bakalaura akadēmiskās studijas |
Studiju programmas nosaukums |
Datorsistēmas |
Nosaukums |
Fokusētas tīmekļa rāpuļprogrammas izstrāde |
Nosaukums angļu valodā |
Development of a Focused Web Crawler |
Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
Darba vadītājs |
Gints Jēkabsons |
Recenzents |
Imants Gorbāns, Dr. sc. administr., LU Datorikas fakultātes docents |
Anotācija |
Tīmekļa rāpuļi veic rekursīvu tīmekļa pārmeklēšanu, lejupielādējot lapas un izgūstot no tām jaunas saites. Šāda pieeja ļauj ātri un efektīvi atrast lielu informācijas apjomu, taču tā nav efektīva specifiskas informācijas meklēšanā un uzkrāšanā. Šim nolūkam tiek izmantoti fokusētie tīmekļa rāpuļi, kas lapu apmeklēšanu un lejupielādi veic selektīvi, balstoties uz lietotāja definētiem kritērijiem.
Darba mērķis ir izanalizēt fokusētās tīmekļa rāpuļošanas problēmu un tajā lietojamos algoritmus, izvērtēt un salīdzināt to efektivitāti un izstrādāt fokusēta tīmekļa rāpuļa prototipu. Darba analītiskajā daļā ir apskatīta vispārēja rāpuļošana, trīs populārākie klasificēšanas algoritmi un to novērtēšanas metodes. Praktiskajā daļā tika apmācīti un novērtēti klasificēšanas modeļi ar dažādiem atribūtu izmēriem, papildināts atvērtā koda StormCrawler rāpulis ar klasificēšanas modeļiem un demonstrēta izstrādātā rāpuļa darbība reālā vidē.
Darba pamattekstā ir 40 lappuses, 18 attēli, 10 tabulas, 42 izmantoto literatūras avotu un 10 pielikumi.
Atslēgvārdi – tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5. |
Atslēgas vārdi |
tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5. |
Atslēgas vārdi angļu valodā |
web crawling, crawler software, classification algorithms, Naïve Bayes, Support Vector Machines, C4.5. |
Valoda |
lv |
Gads |
2020 |
Darba augšupielādes datums un laiks |
15.06.2020 23:26:22 |