Megerősítéses tanulás és alkalmazásai

OData támogatás
Konzulens:
Dr. Katona Gyula
Számítástudományi és Információelméleti Tanszék

Diplomatervem a megerősítéses tanulással foglalkozik, amely a gépi tanulás egy részterülete. A dolgozat folyamán részletesen bemutatom a terület elméleti alapjait, a szorosan kapcsolódó Markov döntési folyamatok fontosabb tulajdonságait, a megerősítéses tanulás területén ismert algoritmusokat és néhány fontosabb elért eredményt. Ezeken túl két, látszólag nem sok közös pontot mutató feladaton demonstrálom, hogyan lehetséges a megerősítéses tanulást alkalmazni egy bizonytalan környezetben alkalmazható viselkedési stratégia megtalálására.

Az első fejezetben a Markov döntési folyamatokkal, azok elméletével, valamint az arra épülő megerősítéses tanulás tématerületével foglalkozom. Bemutatok több sikeres alkalmazás alapjául szolgáló algoritmust és módszert, amely ebbe a témakörbe sorolható. Ismertetem az módszerek erre a területre eső halmazának széleskörű alkalmazhatóságát.

A második fejezetben bemutatok két feladat, amelyek sztohasztikus jellege miatt, megoldásukra megerősítéses tanulási algoritmust érdemes lehet készíteni. Az egyik feladat szélerőművek termelési értékeivel az előzőleg leadott előrejelzésekhez való alkalmazkodás, a másik portfoliotartási stratégia keresése figyelembe véve tranzakciós költségeket. Ismertetem mindkét feladat esetében a rendelkezésre álló információkat, a terület korlátait és a lehetőségeket a megoldásra. Ebben a fejezetben már ismertetek egy-egy részleges Markov döntési folyamatot a feladatok modellezésére. A modellek segítségével rámutatok a két feladat hasonlóságaira.

A harmadik, tervezést leíró fejezetben az Markov döntési folyamatokat teljessé egészítem ki tervezői döntésekkel, bemutatok algoritmusokat, amelyek a feladatokra alkalmazhatóak és módosítom is ezeket az algoritmusokat a feladatok sajátosságai és a forrásokban szereplő tapasztalatok alapján.

A negyedik fejezetben értékelem a korábban felvázolt alternatívákat, valamint magát a megoldást is. Az értékelésnél használt mérőszámokat részletesen bemutatom, az összességében legjobb módszereket futási beállítások segítségével több paraméterbeállítással is kiértékelem. A fejezetben összegzem a tapasztaltakat és az esetleges továbbfejlesztési lehetőségeket.

A diplomaterv célja, hogy bemutassa a megerősítéses tanulás területét és annak alkalmazását konkrét ipari problémákon keresztül, rámutatva a látszólag különböző feladatok közötti modellbeli hasonlóságok kiaknázási lehetőségeire és az ismert algoritmusok bővíthetőségére feladatspecifikus információkkal.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.