Graduate papers
  
Description of the graduate paper
Form of studies Master
Title of the study programm Intelligent robotic systems
Title in original language Mašīnmācīšanā un daudzaģentu paradigmā balstīta daudzrobotu sistēma
Title in English Machine Learning and Multi-Agent System Based Multi-Robot System
Department Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor Egons Lavendelis
Reviewer Jānis Grundspeņķis
Abstract Strauja vairāku sektoru attīstība, piemēram, e-komercijas, rada pieprasījumu pēc augstas efektivitātes noliktavām. Noliktavu efektivitāte tiek uzlabota ar sistēmu automatizēšanu, piemēram, noliktavas piegādes roboti, kas veic resursu nogādāšanu no viena noliktavas punkta uz citu. Šādu funkciju veic RTU VPP MOTE projekta rezultāts – ROS2 sakņota daudzrobotu sistēma, uz kuru balstīts šis darbs. Īstenojot centienus sistēmu padarīt decentralizētu un mērogojamu, individuāli roboti tika abstrahēti ar daudzaģentu sistēmu. No literatūras analīzes tika noskaidrots, ka komandu arhitektūra un CBBA uzdevumu sadales mehānisms ir vispiemērotākie šai problēmsfērai. Veicot VPP MOTE projekta rezultātu izvērtēšanu tika identificētas papildus komponentes, kuras nepieciešams uzlabot, piemēram, imitācijas vide, kas tika aizstāta ar reālai noliktavai līdzīgāku vidi, kā arī maršruta plānošanas uzvedības koks tika aizstāts ar pārāku. Par spīti uzlabojumiem roboti nespēja veikt piegādes un izvairīties no sadursmēm. Tika realizēts daudzaģentu sistēmu stimulētā mašīnmācīšanā sakņots risinājums – apmācības vides izveide, lai papildus uzdevumu sadalīšanai, robotus pārstāvošie aģenti, izmantojot PPO algoritmu, apgūst uzvedības politiku, lai noteiktu, kad aģentam gaidīt, sekot maršrutam vai pārplānot maršrutu. Pēc iteratīvas apmācības vides balvas, soļa, novērojumu funkciju un apmācības parametru pielāgošanas tika panākta apmācības konverģence. Par spīti daudzsološajām politikas apmācības metrikām, validējot politiku, tika novērots, ka tā vairumā gadījumu nespēj sniegt aģentam vēlamu darbību. Šī problēma ir saistīta ar “blīvu” balvas funkciju, kas liek apmācībai konverģētu uz lokālu optimumu. Galvenie darba praktiskie rezultāti ir izstrādāta daudzaģentu sistēmu paradigmā balstīta daudzrobotu sistēma ar imitācijas vidi, kā arī modulāra un konfigurējama stimulētas mašīnmācīšanās vide ar Ray RLlib. Turpmākie pētījumi uz šī darba bāzes ir “izkliedētas” balvas funkcijas ieviešana un attiecīga soļa un novērojumu funkciju un apmācības parametru pielāgošana. Darbs sastāv no 96 lappusēm, 41 attēla, 3 tabulām un 69 informācijas avotiem.
Keywords DAUDZAĢENTU SISTĒMAS, STIMULĒTA MAŠĪNMĀCĪŠANĀS, PPO, NOLIKTAVAS AUTOMATIZĒŠANA
Keywords in English Multi-Agent Systems, Reinforcement Learning, PPO, Warehouse Automation
Language lv
Year 2025
Date and time of uploading 26.05.2025 23:56:02