| Anotācija |
Strauja vairāku sektoru attīstība, piemēram, e-komercijas, rada pieprasījumu
pēc augstas efektivitātes noliktavām. Noliktavu efektivitāte tiek uzlabota ar sistēmu
automatizēšanu, piemēram, noliktavas piegādes roboti, kas veic resursu nogādāšanu no
viena noliktavas punkta uz citu. Šādu funkciju veic RTU VPP MOTE projekta rezultāts – ROS2 sakņota daudzrobotu sistēma, uz kuru balstīts šis darbs. Īstenojot centienus
sistēmu padarīt decentralizētu un mērogojamu, individuāli roboti tika abstrahēti ar
daudzaģentu sistēmu. No literatūras analīzes tika noskaidrots, ka komandu arhitektūra
un CBBA uzdevumu sadales mehānisms ir vispiemērotākie šai problēmsfērai.
Veicot VPP MOTE projekta rezultātu izvērtēšanu tika identificētas papildus
komponentes, kuras nepieciešams uzlabot, piemēram, imitācijas vide, kas tika aizstāta
ar reālai noliktavai līdzīgāku vidi, kā arī maršruta plānošanas uzvedības koks tika
aizstāts ar pārāku. Par spīti uzlabojumiem roboti nespēja veikt piegādes un izvairīties
no sadursmēm.
Tika realizēts daudzaģentu sistēmu stimulētā mašīnmācīšanā sakņots risinājums – apmācības vides izveide, lai papildus uzdevumu sadalīšanai, robotus pārstāvošie
aģenti, izmantojot PPO algoritmu, apgūst uzvedības politiku, lai noteiktu, kad aģentam
gaidīt, sekot maršrutam vai pārplānot maršrutu.
Pēc iteratīvas apmācības vides balvas, soļa, novērojumu funkciju un apmācības
parametru pielāgošanas tika panākta apmācības konverģence. Par spīti daudzsološajām
politikas apmācības metrikām, validējot politiku, tika novērots, ka tā vairumā gadījumu
nespēj sniegt aģentam vēlamu darbību. Šī problēma ir saistīta ar “blīvu” balvas
funkciju, kas liek apmācībai konverģētu uz lokālu optimumu. Galvenie darba praktiskie
rezultāti ir izstrādāta daudzaģentu sistēmu paradigmā balstīta daudzrobotu sistēma ar
imitācijas vidi, kā arī modulāra un konfigurējama stimulētas mašīnmācīšanās vide ar
Ray RLlib.
Turpmākie pētījumi uz šī darba bāzes ir “izkliedētas” balvas funkcijas ieviešana
un attiecīga soļa un novērojumu funkciju un apmācības parametru pielāgošana.
Darbs sastāv no 96 lappusēm, 41 attēla, 3 tabulām un 69 informācijas avotiem. |