Elosztott párhuzamos rendszer alkalmazása web forgalmi adatokon

OData támogatás
Konzulens:
Dr. Strausz György
Méréstechnika és Információs Rendszerek Tanszék

A dolgozat adatintegrációs (ETL) eszközök elosztott, többgépes környezetre való adaptációjával foglalkozik. Bemutat egy konkrét prototípus eszközt, amelynek alkalmazásával egy valós web analitikai anomália detekciós feladat adat-előkészítő részfeladatára is kísérleti megoldás készül. Az eszköz rugalmas XML konfigurációval rendelkezik, amely elrejti az alacsony szintű adatfolyam réteget a fejlesztő elől, és így megkönnyíti az adatfolyam feldolgozás programozását.

A megcélzott és ahhoz hasonló osztott adatfeldolgozási feladatok megoldására az elmúlt években nagy igény mutatkozik, a kisszámú széles körben elérhető megoldásról és a mögöttük lévő módszerekről azonban még nem születtek alapos elemzések. A dolgozat erre próbál választ adni: követi és leírja egy meglévő keretrendszerre épített osztott adatintegrációs eszköz tervezését és implementációját, majd elemzi a megoldás hatékonyságát kísérleti mérések elvégzésével egy biztosító-társaság webszervereinek forgalmi adatain.

Kísérletemben a Twitter Storm eszköz fölé építettem saját Longneck adattranszformáló rendszeremet. A rendszert 11 hónap 100 millió feletti eseményén teszteltem. A kiszolgáló szerverek számában közel lineáris skálázódást tapasztaltam. Az eszközöm másodpercenként közel 100,000 esemény feldolgozására képes, amely már a legnagyobb forgalmú portálok valós idejű elemzésére is alkalmassá teszi az eszközömet.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.