Form of studies |
Bachelor |
Title of the study programm |
Computer Systems |
Title in original language |
Fokusētas tīmekļa rāpuļprogrammas izstrāde |
Title in English |
Development of a Focused Web Crawler |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
Gints Jēkabsons |
Reviewer |
Imants Gorbāns, Dr. sc. administr., LU Datorikas fakultātes docents |
Abstract |
Tīmekļa rāpuļi veic rekursīvu tīmekļa pārmeklēšanu, lejupielādējot lapas un izgūstot no tām jaunas saites. Šāda pieeja ļauj ātri un efektīvi atrast lielu informācijas apjomu, taču tā nav efektīva specifiskas informācijas meklēšanā un uzkrāšanā. Šim nolūkam tiek izmantoti fokusētie tīmekļa rāpuļi, kas lapu apmeklēšanu un lejupielādi veic selektīvi, balstoties uz lietotāja definētiem kritērijiem.
Darba mērķis ir izanalizēt fokusētās tīmekļa rāpuļošanas problēmu un tajā lietojamos algoritmus, izvērtēt un salīdzināt to efektivitāti un izstrādāt fokusēta tīmekļa rāpuļa prototipu. Darba analītiskajā daļā ir apskatīta vispārēja rāpuļošana, trīs populārākie klasificēšanas algoritmi un to novērtēšanas metodes. Praktiskajā daļā tika apmācīti un novērtēti klasificēšanas modeļi ar dažādiem atribūtu izmēriem, papildināts atvērtā koda StormCrawler rāpulis ar klasificēšanas modeļiem un demonstrēta izstrādātā rāpuļa darbība reālā vidē.
Darba pamattekstā ir 40 lappuses, 18 attēli, 10 tabulas, 42 izmantoto literatūras avotu un 10 pielikumi.
Atslēgvārdi – tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5. |
Keywords |
tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5. |
Keywords in English |
web crawling, crawler software, classification algorithms, Naïve Bayes, Support Vector Machines, C4.5. |
Language |
lv |
Year |
2020 |
Date and time of uploading |
15.06.2020 23:26:22 |