Adatfeldolgozás Hadoop platformon

OData támogatás
Konzulens:
Dr. Dudás Ákos
Automatizálási és Alkalmazott Informatikai Tanszék

Manapság napról napra rengeteg adat keletkezik. Gondoljunk például egy napi internetforgalomra, az egy nap alatt összegyűjtött időjárási adatokra vagy a banki részvények változásainak adataira. Az adattárolási kapacitás növekedésével egyre több és egyre részletesebb adat kerül rögzítésre. Az adatok fontos információkat rejthetnek a rögzítő cégek számára, legyen szó például szolgáltatók esetében a vásárlói szokásokról, vagy időjárási adatok esetén pontosabb időjárási modellek becsléséről. Ezen adatok feldolgozásához automatikus módszerekre és hatékony megoldásokra van szükség.

Az adatok relációs adatbázisban történő tárolása és feldolgozása nagy adatmennyiség esetén már nem kivitelezhető, ezért terjednek olyan megoldások, amelyek más formában tárolják és dolgozzák fel az adatokat. Ekkora adathalmazok elemzésére manapság az elosztott rendszerek segítségével biztosítanak széles körben elfogadott megoldást.

A Hadoop nyílt forráskódú keretrendszer segítségével lehetővé válik nagyon nagy adathalmazok hatékony feldolgozása. A platform a HDFS nevű fájlrendszerében hatékonyan tárolja az adatokat és a MapReduce technológia segítségével elosztott módon képes feldolgozni az adatokat.

A dolgozatomban bemutatásra kerül a Hadoop platform és a MapReduce programozási modell. A munkám során egy mások által már többféle technológia segítségével elemzett adathalmaz kerül feldolgozásra. Ezek közt a technológiák közt eddig nem szerepelt a MapReduce technológia. A feladatom során Hadoop környezetben, tehát egy új technológia segítségével kerül feldolgozásra az adathalmaz. Bizonyos adatfeldolgozó algoritmusok hatékonysága kerül vizsgálatra a feldolgozandó adat méretének változtatásával. Ezek között kerülnek elemzésre a skálázódási szabályok a megfelelő metrikák segítségével és kerül összehasonlításra a teljesítményük a megfelelő algoritmusok esetén. Ezeken kívül egy optimalizációs lehetőség is kipróbálásra kerül, melynek keretében a bemeneti adatok lesznek tömörítve és ezen eredmények is vizsgálatra kerülnek a dolgozatban.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.