Mély neurális hálók vizsgálata videójáték környezetben

OData támogatás
Konzulens:
Dr. Pataki Béla József
Méréstechnika és Információs Rendszerek Tanszék

Szakdolgozatom a megerősítéses tanulás alkalmazhatóságát vizsgálja komplex videójáték környezetben. A megerősítéses tanulás sikeres alkalmazása magas dimenziójú képi információra egy áttörést jelentett a gépi tanulás területén, és a dolgozatomban az ehhez szükséges ismereteket és azok megvalósítást mutatom be. A leírt módszereket a DeepMind által ebben a témakörben publikált eredményeire építem, amellyel Atari játékokon értek el kiemelkedő teljesítményt.

A megerősítéses tanulás célja, hogy egy környezetben optimális stratégiát állítson fel. Ennek egy módja az állapot-akció párokhoz rendelt úgynevezett Q értékek optimalizálása a környezet visszajelzései alapján. A publikációhoz hasonlóan egy mély konvolúciós hálózattal megvalósított Q tanulást alkalmazok, amely a játékból kapott képi információkból és jutalmakból az egyes akciók Q értékét adja meg. A hálózat megfelelő tanításával a kapott Q értékek optimálisak, azaz a legmagasabb értékű akciót választva optimális stratégiához jutunk.

A dolgozatban kitérek fejlesztési lehetőségekre is, amelyekkel a Q tanulás gyorsaságát és teljesítményét lehet javítani. Ezek a módszerek az alapul szolgáló publikáció után megjelent megoldások, és alkalmazásukkal nagyságrendi növekedés érhető el a tanulás teljesítményében.

A feladat magas számításigénye miatt, annak egyszerűsített változatát valósítottam meg. Az egyszerűsítés ellenére sikerült az egyik játékban az emberi teljesítménnyel összemérhető eredményt elérni. Végezetül bemutatom, hogy a kapott Q értékek hogyan értelmezhetők és miért bizonyulnak helyes becslésnek.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.