Mélytanulási (deep learning) algoritmusok alkalmazása megerősítéses tanulásban

OData támogatás
Konzulens:
Dr. Pataki Béla József
Méréstechnika és Információs Rendszerek Tanszék

A megerősítéses tanulás a gépi tanulás egy ága. Célja szekvenciális döntési problémák megoldása potenciálisan ismeretlen dinamikájú környezetekben. A feladat olyan stratégia meghatározása, amelyet felhasználva egy ágens maximalizálni tud egy valamilyen módon kumulált jutalmat az ismeretlen környezetben. A probléma az általánossága miatt sok egyéb tudományágban, például a közgazdaságtanban, pszichológiában és az idegtudományban is kutatott.

Idáig a megerősítéses tanulás alkalmazása számítási-és memóriakorlátok miatt kis állapot-és cselekvésterű környezetekre korlátozódott. A közelmúltban a hardver technológia és a mélytanulás (deep learning) fejlődése miatt lehetővé vált ezen módszerek komplex környezetekben való alkalmazása. A mély megerősítéses tanulás lehetővé tette a világ legjobb játékosainak legyőzését a Go játékban, a vizuális megfigyelésekből való tanulást és a komplex háromdimenziós helyzetváltoztatási feladatok megoldását.

Az eddigi kutatómunka a területen elsősorban a tanítási módszerek és az algoritmusok fejlesztésével foglalkozott. Bár a mélytanulás egyik legeredményesebb alkalmazási területe a képfelismerés, kevés az olyan eredmény, amely az ágensmodellek képfeldolgozó komponenseivel foglalkozik. A képfelismerésben használt mély architektúrák és a regularizációs módszerek az eddigi próbálkozások szerint rosszul teljesítenek a megerősítéses tanulási feladatokban, így a teljesítmény javítására irányuló strukturális módosítások kutatása háttérbe szorult.

Ebben a dolgozatban a mély neurális háló ágens modellek strukturális változtatásának az ágens teljesítményére gyakorolt hatását vizsgálom a megerősítéses tanulás témakörben. A szükséges irodalmi háttér bemutatása után megmutatom, hogy hogyan teljesít az advantage actor critic módszer különféle környezetekben az egyik legelterjedtebb ágens modellt használva. Ez után elemzem, hogy a modellen alkalmazott különböző változtatások milyen hatást gyakorolnak az ágens teljesítményére.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.