Kísérleti platform hierarchikus megerősítéses tanulás tanulmányozásához

OData támogatás
Konzulens:
Dr. Dobrowiecki Tadeusz Pawel
Méréstechnika és Információs Rendszerek Tanszék

A diplomamunkám témája egy szimulációs környezet felépítése, melyben a hierarchikus többágenses megerősítéses tanulás (HMARL) alkalmazását lehet vizsgálni a felhasználó által definiált feladatokra. Bemutatom a HMARL elméleti hátterét, majd ennek egy kooperatív, taszkfelbontásra épülő változatát implementálom. Az ágensek feladatai a tervező logikája szerint vannak hierarchiába rendezve, és bizonyos részfeladatok esetén kommunikálhatnak is egymással, melynek állítható a költsége, így vizsgálható a hatása a viselkedésre. Az állapot-cselekvés értékfüggvényeket a MAXQ módszerrel határozom meg. Létrehozok egy saját, primitív script-elési nyelvet, mely által a felhasználó képes akár futási időben is módosítani a környezet és az ágensek programozását, vagyis át tudja definiálni a feladatot a keretrendszer forráskódjának módosítása nélkül. A rendszer diszkrét kétdimenziós, ún. „négyzetrácsos” világot feltételez az ágenskörnyezetek alapjául, és ehhez implementálok egy vizualizációs interfészt is, mely által a felhasználó figyelheti az ágensek viselkedését, valamint grafikonokat és egyéb statisztikákat is lekérdezhet. A rendszer működését ezután mintapéldákon mutatom be, többek között takarító robotok vezérlését, illetve a klasszikus taxi problémát, és a kísérletek eredményeivel mutatom be a tanuló algoritmus hatékonyságát.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.