Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language Fokusētas tīmekļa rāpuļprogrammas izstrāde
Title in English Development of a Focused Web Crawler
Department 12300 Institute of Applied Computer Systems
Scientific advisor Gints Jēkabsons
Reviewer Imants Gorbāns, Dr. sc. administr., LU Datorikas fakultātes docents
Abstract Tīmekļa rāpuļi veic rekursīvu tīmekļa pārmeklēšanu, lejupielādējot lapas un izgūstot no tām jaunas saites. Šāda pieeja ļauj ātri un efektīvi atrast lielu informācijas apjomu, taču tā nav efektīva specifiskas informācijas meklēšanā un uzkrāšanā. Šim nolūkam tiek izmantoti fokusētie tīmekļa rāpuļi, kas lapu apmeklēšanu un lejupielādi veic selektīvi, balstoties uz lietotāja definētiem kritērijiem. Darba mērķis ir izanalizēt fokusētās tīmekļa rāpuļošanas problēmu un tajā lietojamos algoritmus, izvērtēt un salīdzināt to efektivitāti un izstrādāt fokusēta tīmekļa rāpuļa prototipu. Darba analītiskajā daļā ir apskatīta vispārēja rāpuļošana, trīs populārākie klasificēšanas algoritmi un to novērtēšanas metodes. Praktiskajā daļā tika apmācīti un novērtēti klasificēšanas modeļi ar dažādiem atribūtu izmēriem, papildināts atvērtā koda StormCrawler rāpulis ar klasificēšanas modeļiem un demonstrēta izstrādātā rāpuļa darbība reālā vidē. Darba pamattekstā ir 40 lappuses, 18 attēli, 10 tabulas, 42 izmantoto literatūras avotu un 10 pielikumi. Atslēgvārdi – tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5.
Keywords tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5.
Keywords in English web crawling, crawler software, classification algorithms, Naïve Bayes, Support Vector Machines, C4.5.
Language lv
Year 2020
Date and time of uploading 15.06.2020 23:26:22