Nagyméretű adathalmazok elemzésének stream processing alapú támogatása

OData támogatás
Konzulens:
Gönczy László
Méréstechnika és Információs Rendszerek Tanszék

Napjainkban az informatikai infrastruktúrák által generált adatok mennyisége rohamosan növekszik. Ezért szükséges, hogy olyan adatfeldolgozási technológiákat használjunk, amik hatékonyan képesek kezelni ezt a hatalmas mennyiségű adatot elfogadható időn belül. Erre a célra felhőalapú erőforrásokat és párhuzamos végrehajtást támogató megoldásokat széleskörűen használnak.

A stream alapú feldolgozás egyre inkább nyilvánvaló választásnak tűnik folyamatosan létrejövő adatok elosztott feldolgozására, ahol a feldolgozás azonnali számítási eredményeket igényel, vagy a rendszerbe beérkező adatok könnyedén betölthetik a rendelkezésre álló tárolókapacitást. Logikus igényként merül fel, hogy a feldolgozási folyamatok során már elterjedt, adatelemzéshez is használt nyelveket, mint R vagy Python használjunk.

A szakdolgozat ismerteti a stream alapú feldolgozással kapcsolatos nehézségeket, néhányat a problémakörhöz kapcsolódó algoritmusok és a stream alapú feldolgozást támogató keretrendszerek közül. Bemutatja egy felhőben futó stream alkalmazás megvalósítását, ami egyes feldolgozási lépések során adatfeldogozó nyelveket használ. Végül áttekinti a lehetőségét, hogy egy népszerű stream alapú keretrendszer hogyan ágyazható be egy adatelemzéshez használt környezetbe, hogy környezet által nyújott eszközök segítségével további elemzéseket végezhessünk.

A fő célom az volt, hogy átfogó képet szerezzek egy népszerű stream alapú keretrendszer képességeiről, melyet egy működő, nagy mennyiségű hálózati adatot feldolgozó stream alkalmazás elkészítésével értem el.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.