Elosztott valós idejű eseményfeldolgozás Samza technológiával

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

A világon termelődő egyre nagyobb adatmennyiségek feldolgozása a jól bevált egygépes rendszerekkel már nem lehetséges - a szerverek teljesítménye nem tud lépést tartani a növekedés mértékével. Az adathalmazok mélyén rejlő értékes információk kinyerése érdekében újfajta módszereket és technológiákat kell alkalmazni, rengeteg számítógép hatékony és összehangolt működését megvalósítani. Ennek a bonyolult feladatnak a megvalósítására összetett keretrendszereket hoztak létre.

Az elérhető fizetős eszközök némelyike gyors és egyszerű fejlesztést és telepítést tesz lehetővé, használatukat - az áruk miatt - azonban csak a legnagyobb multinacionális vállalatok engedhetik meg maguknak. Adatfeldolgozási megoldásokra a kisebb szervezeteknek is szükségük van, nekik a nyílt forráskódú keretrendszerek közül kell válogatniuk. Ezek fejlesztése és beüzemelése azonban nehezebb feladat.

A fiatal tématerületen különösen nagy kihívást jelent az adatok valós-időben történő feldolgozása. A szakdolgozat célja, hogy feltérképezze az elérhető nyílt forráskódú, elosztott, valós idejű rendszerek tulajdonságait, majd közülük az Apache Samza keretrendszer használatával egy működő prototípus alkalmazás implementálása. Az elkészítendő alkalmazással szemben fontos követelmény, hogy a lekérdezéseket könnyen érthető és rugalmasan változtatható formában lehessen megadni.

Utóbbi szempont megvalósítása érdekében az Esper nevű eseményfeldolgozó lett integrálva a Samza technológiába. A tervezés során az adatfeldolgozás két fő része két külön alkalmazásba került. A szakdolgozat nélkülözhetetlen része a kapott megoldás teljesítményének vizsgálata. Ez egy különálló mérő program kifejlesztését tette indokolttá.

Az implementált alkalmazások segítségével a Samza több teljesítmény szempontjából fontos paraméterét vizsgáltam, egy többgépes számítógépfürtön. A kapott áteresztőképesség és késleltetés értékek megfelelőek, a prototípus megoldás teljesítménye kielégítő. Az alkalmazás akár 90 ezer eseményt is képes feldolgozni másodpercenként egy számítási csomópontban. A tesztelések során ezenkívül a Samza rendszer több paraméterének optimális értéke is meghatározásra került.

A szakdolgozat végkövetkeztetése, hogy az Apache Samza rendszer egy versenyképes rendszer az elérhető megoldások közül. Alapkoncepcióinak ismeretében, némi tapasztalattal fejlesztése egyszerű és gyors, így megfelelő eszköz - a legnagyobb multinacionális cégeken kívül - kisebb méretű nagyvállalatok és középvállalkozások számára is.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.