Anomáliadetektálás adatfolyamokon

OData támogatás
Konzulens:
Salánki Ágnes
Méréstechnika és Információs Rendszerek Tanszék

A szokásostól eltérő adatpontok, ún. anomáliák automatikus detektálása számos szakterületen kiemelt jelentőségű, hiszen a ritkán előforduló, a többiektől viselkedésükben különböző megfigyelések hátterében gyakran veszélyes jelenségek állnak, amelyek számos esetben (például pénzügyi szektor csalásait vagy egy számítógépes infrastruktúra betörési kísérleteinél) nagy anyagi vagy erkölcsi károkat okoznak.

Ezeken a szakterületeken az adatpontok időbeli kapcsolata hangsúlyos, emiatt valós idejű kiértékelés válik szükségessé. Ezekben az esetekben tehát adatfolyamokon értelmezett, online anomália detektálási módszerek használata gyakori.

Különböző detektáló algoritmusok különböző feltételezésekkel élnek az anomáliák jellemzőire vonatkozóan, emiatt más és más módszerekkel próbálják megtalálni ezeket a furcsa eseményeket. Jelen szakdolgozat célja az irodalomban fellelhető, jellemzően használt algoritmusok vizsgálata.

A szakdolgozatban emiatt részletesen ismertetek több anomáliadetektáló algoritmust, melyek közül hármat Pythonban implementáltam és az Apache Storm adatfolyam feldolgozó környezetbe integráltam. Ez a három leimplementált algoritmus a távolság alapú Exact-Storm és a klaszterezési elemzést használó Korm és DenStream.

A szakdolgozatban bemutatom az általam felépített kísérleti környezetet, mely adatfolyam feldolgozási keretrendszerként az Apache Stormot használja, az algoritmusok eredményeinek valós idejű ábrázolását egy kliens oldali vizualizációs könyvtár (Bokeh) és a kettő közötti köztes kapcsolatot pedig egy Python alapú webszerver (Web.py) valósítja meg.

Az algoritmusok eredményeinek vizualizációjára párhuzamos koordináta és szórásdiagramot használtam.

Összeállítottam egy, az algoritmusok alapvető összehasonlításra alkalmas reprezentatív szintetikus adatkészlet halmazt és ezeken vizsgáltam az implementált algoritmusok detektálási sikerességét. Az algoritmusok használhatóságát egy, a pénzügyi szektorból származó éles adathalmazon vizsgáltam meg.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.