Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids maģistra akadēmiskās studijas
Studiju programmas nosaukums Intelektuālas robotizētas sistēmas
Nosaukums Mašīnmācīšanā un daudzaģentu paradigmā balstīta daudzrobotu sistēma
Nosaukums angļu valodā Machine Learning and Multi-Agent System Based Multi-Robot System
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Egons Lavendelis
Recenzents Jānis Grundspeņķis
Anotācija Strauja vairāku sektoru attīstība, piemēram, e-komercijas, rada pieprasījumu pēc augstas efektivitātes noliktavām. Noliktavu efektivitāte tiek uzlabota ar sistēmu automatizēšanu, piemēram, noliktavas piegādes roboti, kas veic resursu nogādāšanu no viena noliktavas punkta uz citu. Šādu funkciju veic RTU VPP MOTE projekta rezultāts – ROS2 sakņota daudzrobotu sistēma, uz kuru balstīts šis darbs. Īstenojot centienus sistēmu padarīt decentralizētu un mērogojamu, individuāli roboti tika abstrahēti ar daudzaģentu sistēmu. No literatūras analīzes tika noskaidrots, ka komandu arhitektūra un CBBA uzdevumu sadales mehānisms ir vispiemērotākie šai problēmsfērai. Veicot VPP MOTE projekta rezultātu izvērtēšanu tika identificētas papildus komponentes, kuras nepieciešams uzlabot, piemēram, imitācijas vide, kas tika aizstāta ar reālai noliktavai līdzīgāku vidi, kā arī maršruta plānošanas uzvedības koks tika aizstāts ar pārāku. Par spīti uzlabojumiem roboti nespēja veikt piegādes un izvairīties no sadursmēm. Tika realizēts daudzaģentu sistēmu stimulētā mašīnmācīšanā sakņots risinājums – apmācības vides izveide, lai papildus uzdevumu sadalīšanai, robotus pārstāvošie aģenti, izmantojot PPO algoritmu, apgūst uzvedības politiku, lai noteiktu, kad aģentam gaidīt, sekot maršrutam vai pārplānot maršrutu. Pēc iteratīvas apmācības vides balvas, soļa, novērojumu funkciju un apmācības parametru pielāgošanas tika panākta apmācības konverģence. Par spīti daudzsološajām politikas apmācības metrikām, validējot politiku, tika novērots, ka tā vairumā gadījumu nespēj sniegt aģentam vēlamu darbību. Šī problēma ir saistīta ar “blīvu” balvas funkciju, kas liek apmācībai konverģētu uz lokālu optimumu. Galvenie darba praktiskie rezultāti ir izstrādāta daudzaģentu sistēmu paradigmā balstīta daudzrobotu sistēma ar imitācijas vidi, kā arī modulāra un konfigurējama stimulētas mašīnmācīšanās vide ar Ray RLlib. Turpmākie pētījumi uz šī darba bāzes ir “izkliedētas” balvas funkcijas ieviešana un attiecīga soļa un novērojumu funkciju un apmācības parametru pielāgošana. Darbs sastāv no 96 lappusēm, 41 attēla, 3 tabulām un 69 informācijas avotiem.
Atslēgas vārdi DAUDZAĢENTU SISTĒMAS, STIMULĒTA MAŠĪNMĀCĪŠANĀS, PPO, NOLIKTAVAS AUTOMATIZĒŠANA
Atslēgas vārdi angļu valodā Multi-Agent Systems, Reinforcement Learning, PPO, Warehouse Automation
Valoda lv
Gads 2025
Darba augšupielādes datums un laiks 26.05.2025 23:56:02