Modell alapú idősor-osztályozó továbbfejlesztése és kiterjesztése

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

Az idősor-osztályozás problémájának megoldására az esetek többségében példány alapú algoritmusokat használnak, amelyek sok előnnyel, de lagalább ugyanennyi hátránnyal rendelkeznek a modell alapú módszerekkel szemben. Bizonyos problémákra léteznek modell alapú megoldások, ám ezek alkalmazása vagy előzetes szakértői tudást követel, vagy csakis az adott problémára lehetséges.

A ShiftTree algoritmus egy olyan, saját fejlesztésű, modell alapú idősor osztályozó, ami szakértői tudás nélkül is az alapvető példány alapú módszerek pontosságával alkalmazható, miközben számos előnyös tulajdonsággal rendelkezik, mint amilyen a modellek értelmezhetősége, vagy a szakártői tudás modellbe építhetősége, vagy a problémafüggetlen alkalmazhatóság. A dolgozatban bemutatom a ShiftTree idősor-osztályozó algoritmust, és megvizsgálom, hogy milyen módon lehetne azt továbbfejleszteni, hogy még hatékonyabbá válljon.

Az algoritmus pontosságát növelendő, kibővítem az algoritmus operátorkészletét, és egy teljesen új operátorcsaládot vezetek be. Megvizsgálom, hogy hogyan lehet úgy megváltoztatni a tanítási algoritmust, hogy a modellek pontossága elérje, a többszörös modellezéssel elérhető pontosságot, de ezért ne kelljen sokszorosára megnőtt futási idővel, illetve modell-komplexitással fizetnünk. A módosításokat 23, különféle területről vett, eltérő tulajdonságú idősor-osztályozási feladaton tesztelem, és az eredményeket a legelterjedtebb szomszéd módszerek eredményeivel is összehasonlítom. Az optimálisnak tűnő módszert összehasonlítom a 2007-es Time Series Challange verseny eredményivel, vak tesztek keretében.

Azonosítom azokat a pontokat, amelyeken az algoritmust optimalizálva a tanítási idő jelentősen lecsökkenthető. Az optimalizálást elvégezve megvizsgálom, hogy ez hogyan hatott a futási időre és az algoritmus skálázódására.

Megvizsgálom, hogy az algoritmust felhasználva milyen összetett modellek készíthetőek. Kétféle kombinálási módszert megvizsgálok: az elterjedt boostingot és a saját fejlesztésű, keresztvalidáción alapuló metódust. Ezeket az úgy nevezett forest eljárásokat 22 adatsoron tesztelem, és az optimálisnak tűnő módszert összehasonlítom a 2007-es Time Series Challange verseny eredményivel, vak tesztek keretében.

Módosítom az algoritmust úgy, hogy képes legyen az osztályozási konfidenciák kezelésére, illetve képes legyen kezelni azt, anélkül, hogy újra kéne modelleznünk, ha az osztályozandó adatok tulajdonságai az idővel megváltoznak. Ez utóbbi a gyakorlati problémák esetében általános jelenség.

Röviden megvizsgálom, hogy az algoritmus mögötti elv, illetve az algoritmus modelljei milyen más - az idősor-osztályozástól eltérő - területen, milyen feltételek mellett alkalmazhatóak, és felvázolom a jövőbeli, lehetséges kutatási/fejlesztési irányokat.

Mindezen fejlesztésekkel elérem, hogy a ShiftTree egy nagyon jó tulajdonságú idősor-osztályozó rendszerré válljon, ami könnyen kiterjeszthető más félig-strukturált, illetve strukturált adatok osztályozására.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.