Hatékony, szöveges adatfeldolgozó algoritmusok és adatkorrelációs módszerek tervezése, megvalósítása

OData támogatás
Konzulens:
Dr. Varga Pál
Távközlési és Médiainformatikai Tanszék

A nem strukturált naplózás még mindig domináns a mai informatikai rendszerekben. Ez az információ elvesztegetéséhez vezet. Amíg hatékony információ-kinyerő metódusok nem lesznek kifejlesztve, addig a naplóüzenetekben lévő információ alig lesz kiaknázva. Jelen diplomaterv célja hatékony napló elemző algoritmusok tervezése és megvalósítása, valamint egy olyan adatformátum bemutatása, amely képes különböző esemény típusok közötti korrelációs kapcsolatok leírására, ezáltal naplóüzenetek adatgazdagítására.

A diplomatervben először megvizsgálom a napjainkban használt napló elemző és korrelációs technológiákat. Ezt követően bemutatok két szuffix-fa és szuffix-tömb alapú algoritmust, majd megmérem azok teljesítményét. Viszonyításképpen, az eredményeket összevetem egy reguláris kifejezéseken alapuló referencia megvalósítás paramétereivel. Megtervezek és megvalósítok egy napló feldolgozó függvénykönyvtárat, ami a korábban ismertetett algoritmusokat használja. A függvénykönyvtár bemutatása után ismertetek egy események közötti korrelációs kapcsolatokat leíró formátumot, majd annak egy referencia megvalósítását, mely eseményeket csoportosít és mesterséges üzeneteket generál adott feltételek teljesülése esetén.

Az eredmények hűen tükrözik, hogy a tisztán reguláris kifejezéseken alapuló napló elemző nem jól skálázódik: a minták számának növelésével annak teljesítménye lineárisan csökken. Ezzel ellentétben, az általam bemutatott szuffix-tömb és szuffix-fa alapú algoritmusok teljesítményét alig befolyásolta a minták számának növelése. A mérési eredmények alapján kijelenthető, hogy a napló elemző függvénykönyvtáram képes volt több mint 1 millió naplóüzenet elemzésére egy másodperc alatt, ami 38-szor hatékonyabb a vizsgált reguláris kifejezésekre épülő napló elemzőnél. A gyakorlati alkalmazhatóság bizonyításaként, a függvénykönyvtárat a nyílt forrású syslog-ng naplózó alkalmazáshoz integráltam.

Következtetésül bemutatom, hogy a minta alapú napló elemzés nagyon hatékony lehet. A kézzel történő minta készítés azonban költséges lehet, emiatt automatikus minta-generáló algoritmusokra van szükség.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.