Graduate papers
  
Description of the graduate paper
Form of studies Master
Title of the study programm Computer Systems
Title in original language Tekstveida datu ģeoparsēšanas optimizēšana, izmantojot ģenētisko algoritmu
Title in English Optimization of Textual Data Geoparsing Using Genetic Algorithm
Department 12300 Institute of Applied Computer Systems
Scientific advisor Vad.pētnieks G.Jēkabsons, Dr.sc.ing.
Reviewer L.Novickis, Dr.hab.sc.ing., LDP prof. grupas profesors
Abstract Tekstveida datu ģeogrāfiskā konteksta analīze un izgūšana ir viens no veidiem, kā informācijas grupēšanu, filtrēšanu un meklēšanu mūsdienu pārpildītājā internettelpā padarīt vienkāršāku un efektīvāku. Tekstveida datu ģeoparsēšanas sistēma analizē nestrukturizētu tekstu un piesaista tam vai tā vārdiem ģeogrāfiskus identifikatorus, tālākai to izmantošanai uz atrašanās vietu balstītos servisos un ģeogrāfiskās informācijas sistēmās. Maģistra darba gaitā ir izstrādāta ģeoparsēšanas metodoloģija, kas nav atkarīga no konkrētas teksta valodas un ir spējīga strādāt ar tekstveida datiem visās Eiropas saimes valodās. Izstrādātajā metodoloģijā ir integrēta automātiska vietvārdu kārtošanas koeficientu vērtību optimizēšana, izmantojot Ģenētisko algoritmu, tādā veidā ļaujot ģeoparsēšanas sistēmai efektīvi adaptēties darbam ar dažādu valodu, dažādu ģeogrāfisko mērogu un dažādu nozaru tekstveida datiem. Izstrādāta metodoloģija tika realizēta programmatūrā, ar kuru tika veikti ģeoparsēšanas eksperimenti vietvārdu kārtošanas svara koeficentu optimizēšanā, iegūstot optimizēšanas procesa un pielietoto ģenētisko operatoru efektivitātes novērtējumu. Eksperimentu rezultāti parādīja, ka Ģenētiskais algoritms ir spējīgs sasniegt rezultātus, kas ir līdzīgi vai pat labāki nekā rezultāti, kas iegūti ar cilvēka-eksperta noteiktajām kārtošanas koeficientu vērtībām. Izstrādātā metodoloģija ir pielietojama ģeoparsēšanas iespēju integrēšanai uz atrašanās vietu balstītos servisos un ģeogrāfiskās informācijas sistēmās, kā arī var kalpot par pamatu, izstrādājot jaunas ģeoparsēšanas sistēmas. Maģistra darbs satur ievadu, 4 nodaļas, nobeigumu, literatūras sarakstu (53 nosaukumi), 13 attēlus, 8 tabulas, kopā 63 lappuses.
Keywords ģeoparsēšana, ģeogrāfiskas informācijas izgūšana, ģenētiskais algoritms, dabīgās valodas apstrāde
Keywords in English geoparsing, geographic information retrieval, genetic algorithm, natural language processing
Language lv
Year 2013
Date and time of uploading 02.06.2013 13:29:39