Machine Learning and Multi-Agent System Based Multi-Robot System

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Master
Title of the study programm	Intelligent Robotic Systems
Title in original language	Mašīnmācīšanā un daudzaģentu paradigmā balstīta daudzrobotu sistēma
Title in English	Machine Learning and Multi-Agent System Based Multi-Robot System
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Egons Lavendelis
Reviewer	Jānis Grundspeņķis
Abstract	Strauja vairāku sektoru attīstība, piemēram, e-komercijas, rada pieprasījumu pēc augstas efektivitātes noliktavām. Noliktavu efektivitāte tiek uzlabota ar sistēmu automatizēšanu, piemēram, noliktavas piegādes roboti, kas veic resursu nogādāšanu no viena noliktavas punkta uz citu. Šādu funkciju veic RTU VPP MOTE projekta rezultāts – ROS2 sakņota daudzrobotu sistēma, uz kuru balstīts šis darbs. Īstenojot centienus sistēmu padarīt decentralizētu un mērogojamu, individuāli roboti tika abstrahēti ar daudzaģentu sistēmu. No literatūras analīzes tika noskaidrots, ka komandu arhitektūra un CBBA uzdevumu sadales mehānisms ir vispiemērotākie šai problēmsfērai. Veicot VPP MOTE projekta rezultātu izvērtēšanu tika identificētas papildus komponentes, kuras nepieciešams uzlabot, piemēram, imitācijas vide, kas tika aizstāta ar reālai noliktavai līdzīgāku vidi, kā arī maršruta plānošanas uzvedības koks tika aizstāts ar pārāku. Par spīti uzlabojumiem roboti nespēja veikt piegādes un izvairīties no sadursmēm. Tika realizēts daudzaģentu sistēmu stimulētā mašīnmācīšanā sakņots risinājums – apmācības vides izveide, lai papildus uzdevumu sadalīšanai, robotus pārstāvošie aģenti, izmantojot PPO algoritmu, apgūst uzvedības politiku, lai noteiktu, kad aģentam gaidīt, sekot maršrutam vai pārplānot maršrutu. Pēc iteratīvas apmācības vides balvas, soļa, novērojumu funkciju un apmācības parametru pielāgošanas tika panākta apmācības konverģence. Par spīti daudzsološajām politikas apmācības metrikām, validējot politiku, tika novērots, ka tā vairumā gadījumu nespēj sniegt aģentam vēlamu darbību. Šī problēma ir saistīta ar “blīvu” balvas funkciju, kas liek apmācībai konverģētu uz lokālu optimumu. Galvenie darba praktiskie rezultāti ir izstrādāta daudzaģentu sistēmu paradigmā balstīta daudzrobotu sistēma ar imitācijas vidi, kā arī modulāra un konfigurējama stimulētas mašīnmācīšanās vide ar Ray RLlib. Turpmākie pētījumi uz šī darba bāzes ir “izkliedētas” balvas funkcijas ieviešana un attiecīga soļa un novērojumu funkciju un apmācības parametru pielāgošana. Darbs sastāv no 96 lappusēm, 41 attēla, 3 tabulām un 69 informācijas avotiem.
Keywords	DAUDZAĢENTU SISTĒMAS, STIMULĒTA MAŠĪNMĀCĪŠANĀS, PPO, NOLIKTAVAS AUTOMATIZĒŠANA
Keywords in English	Multi-Agent Systems, Reinforcement Learning, PPO, Warehouse Automation
Language	lv
Year	2025
Date and time of uploading	26.05.2025 23:56:02