Paraméter térbeli zaj hatásának vizsgálata a mély megerősítéses tanulásban

OData támogatás
Konzulens:
Dr. Gyires-Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

A 20. század végén lefektetett tudományos alapokat a rendelkezésünkre álló számítási kapaciás növekedésével lehetőségünk nyílt a gyakorlatban is próbára tenni – jelentős eredményeket szült a mély neurális hálók rugalmasságának kihasználása a megerősítéses tanulásban.

A megerősítéses tanulás egyik fontos kérdése a környezet felfedezésének minél mélyrehatóbb módszere.

Ennek ösztönzésére eddig a legelterjedtebb módszer a cselekvéstér zajjal való dúsítása, amely egy viszonylag egyszerű és intuitív megoldás (,,néha ne a legjobbnak tűnő lehetőséget válasszuk!'').

Erre a problémára született nemrég egy másik – lényegesen összetettebb – gyakorlati megoldás: Plappert et al. megmutatták, hogy egyes esetekben hogyan lehet a paramétertérbe kevert Gauss-zajjal felülmúlni az eddigi megoldásokat felfedezés gyorsasága és konvergeciája szemponjából. A mély megerősítéses tanulási rendszerben a paraméterek a neurális háló súlyait és egyéb tanulandó beállításait jelentik, azaz a zajt a döntési folyamathoz adjuk hozzá még a végeredmény előtt.

Dolgozatomban ezeket az újításokat alkalmazom Deep Q-Network (DQN) és Deep Deterministic Policy Gradients (DDPG) eljárásokra, és figyelem meg az előbbi esetén az algoritmus egy javításának, az úgynevezett duelingnek a hatását, az utóbbi esetén pedig a (hagyományos) cselekvéstérbeli zajjal való kombinálásának eredményeit.

A kísérletek eredményeképpen megállapítható, hogy bár néhány esetben segít a perturbáció, azonban nem feltétlenül alkalmazható univerzálisan, azaz nem minden esetben vagy legalábbis nem minden módon támogatja a kívánt felfedezési viselkedés.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.