Development of Data Scrapping from Tabular Tables

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Bachelor
Title of the study programm	Computer Systems
Title in original language	Datu rasmošanas realizācija tabulām ar cilnēm
Title in English	Development of Data Scrapping from Tabular Tables
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Vita Šakele
Reviewer	Aleksejs Jurenoks
Abstract	Dažās tīmekļa lapās ir tabulas, bet tabulās ir dati. Būtībā tīmekļa lapas pirmkods sastāv no HTML tagiem un tagiem, kas izmantoti tabulai, piemēram, <table>, <tr> un <td>. Parsējot struktūru, tabulas datus var rasmot. Šis bakalaura darbs ir rakstīts par datu rasmošanas analīzi no tabulām ar cilnēm, kas atspoguļotas dažādās tīmekļa lapās. Pirmkārt, tiek izskatīta tīmekļa rasmošanas koncepcija un noteikumi, esošie rasmošanas rīki un programmēšanas valodas tīmekļa rasmošanai. Pēc tam, lai analizētu esošo rīku funkcionalitāti, PHP bibliotēka “phpQuery”, darbvirsmas lietojumprogramma “FMiner” un pārlūkprogrammas paplašinājums “Scraper” tiek izvēlēti kā piemēri no dažādiem esošajiem rīkiem un pārbaudīti, faktiski rasmojot datus no SSR lapas, CSR lapas, AJAX lapas, AngularJS lapas, lapām, kas iegūtas no tabulas, un vairākām tabulu lapām ar tām. Tāpat ar testu palīdzību tiek analizētas lapu struktūras un identificētas rīku problēmas. Un pēc testiem tiek piedāvātas dažas idejas instrumentu uzlabošanai. Konkrētāk, Selenium un PHP-webdriver tiek piedāvāts rasmot datus no dinamiskām lapām, 3 veidi, kā analizēt rasmotos datus, un JavaScript “Chart.js” tiek piedāvāts datu analīzei, vairākpavedienu datu skrāpēšana tiek piedāvāta, lai ātri rasmot datus. Un tad tiek pārbaudīta programma, kas izstrādāta PHP, balstoties uz piedāvātajām idejām. Programmas testā dati faktiski tiek rasmoti no lapām, kas tiek izmantotas 3 rīku testēšanai kopā ar to, lai redzētu, vai tas darbojas, kā paredzēts. Turklāt to salīdzina ar rīkiem, raugoties no tā, vai datus var vai nevar rasmot, cik ātri un vai rasmotos datus var analizēt vai ne. Un pēc tam tiek analizēti programmas testa rezultāti. Visbeidzot tiek rakstīti secinājumi un turpmākais darbs.  Šajā bakalaura darbā ir 55 lappuses, 18 attēli, 4 tabulas, 13 atsauces un 7 pielikumi.
Keywords	RASMOŠANA, TĪMKEĻA RASMOŠANA, VAIRĀKPAVEDIENU DATU RASMOŠANA, SSR, CSR
Keywords in English	SCRAPING, WEB SCRAPING, MULTI-THREADED DATA SCRAPING, SSR, CSR
Language	eng
Year	2023
Date and time of uploading	02.01.2023 16:09:10