Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language Datu rasmošanas realizācija tabulām ar cilnēm
Title in English Development of Data Scrapping from Tabular Tables
Department 12300 Institute of Applied Computer Systems
Scientific advisor Vita Šakele
Reviewer Aleksejs Jurenoks
Abstract Dažās tīmekļa lapās ir tabulas, bet tabulās ir dati. Būtībā tīmekļa lapas pirmkods sastāv no HTML tagiem un tagiem, kas izmantoti tabulai, piemēram, <table>, <tr> un <td>. Parsējot struktūru, tabulas datus var rasmot. Šis bakalaura darbs ir rakstīts par datu rasmošanas analīzi no tabulām ar cilnēm, kas atspoguļotas dažādās tīmekļa lapās. Pirmkārt, tiek izskatīta tīmekļa rasmošanas koncepcija un noteikumi, esošie rasmošanas rīki un programmēšanas valodas tīmekļa rasmošanai. Pēc tam, lai analizētu esošo rīku funkcionalitāti, PHP bibliotēka “phpQuery”, darbvirsmas lietojumprogramma “FMiner” un pārlūkprogrammas paplašinājums “Scraper” tiek izvēlēti kā piemēri no dažādiem esošajiem rīkiem un pārbaudīti, faktiski rasmojot datus no SSR lapas, CSR lapas, AJAX lapas, AngularJS lapas, lapām, kas iegūtas no tabulas, un vairākām tabulu lapām ar tām. Tāpat ar testu palīdzību tiek analizētas lapu struktūras un identificētas rīku problēmas. Un pēc testiem tiek piedāvātas dažas idejas instrumentu uzlabošanai. Konkrētāk, Selenium un PHP-webdriver tiek piedāvāts rasmot datus no dinamiskām lapām, 3 veidi, kā analizēt rasmotos datus, un JavaScript “Chart.js” tiek piedāvāts datu analīzei, vairākpavedienu datu skrāpēšana tiek piedāvāta, lai ātri rasmot datus. Un tad tiek pārbaudīta programma, kas izstrādāta PHP, balstoties uz piedāvātajām idejām. Programmas testā dati faktiski tiek rasmoti no lapām, kas tiek izmantotas 3 rīku testēšanai kopā ar to, lai redzētu, vai tas darbojas, kā paredzēts. Turklāt to salīdzina ar rīkiem, raugoties no tā, vai datus var vai nevar rasmot, cik ātri un vai rasmotos datus var analizēt vai ne. Un pēc tam tiek analizēti programmas testa rezultāti. Visbeidzot tiek rakstīti secinājumi un turpmākais darbs.   Šajā bakalaura darbā ir 55 lappuses, 18 attēli, 4 tabulas, 13 atsauces un 7 pielikumi.
Keywords RASMOŠANA, TĪMKEĻA RASMOŠANA, VAIRĀKPAVEDIENU DATU RASMOŠANA, SSR, CSR
Keywords in English SCRAPING, WEB SCRAPING, MULTI-THREADED DATA SCRAPING, SSR, CSR
Language eng
Year 2023
Date and time of uploading 02.01.2023 16:09:10