Magaszintű adatfeldolgozó eszközök Hadoop alapokon

OData támogatás
Konzulens:
Kazi Sándor Antal
Távközlési és Médiainformatikai Tanszék

Napjainkban az évente gyarapodó adatmennyiség az előző évhez viszonyítva, átlagosan 40 százalékkal növekszik. Az utóbbi időben elterjedt angol „big data” kifejezés is, a nagy mennyiségű komplex, nem strukturált adatra utal, amelynek elemzésével a cégek jelentős üzleti előnyre tehetnek szert. Korunk vállalatai a „big data” által kínált lehetőségek kiaknázása nélkül ma már nem lehetnek sikeresek. Versenyképességük megőrzése érdekében szokatlanul nagy mennyiségben és gyorsasággal kell feltárniuk és feldolgozniuk az új adatforrásokat. Ezt a változást mutatja az is, hogy az adatelemzői szerepet „big data” környezetben már ún. data scientist tölti be, akinek szerepköre már túlmutat az adatok elemzésén. Ők adatmodellek és algoritmusok kihasználásával stratégiai döntéseket készítenek elő, illetve olyan operatív döntések meghozatalában tesznek javaslatokat, mint például az árképzés, vagy a termelés előre látható szükséges mennyisége. Ezek alapjául szolgál a „big data” témakörébe tartozómódszerek és eszközök alkalmazása, melyek, azabban a nagy mennyiségű adatban rejlő információ megvalósítható kinyerésére hivatottak.

Mindezen ismeretek fényében nem meglepő, hogy jelen korunkban nagy jelentőséggel bírnak azon kutatások, melyek ezen adatokból történő információk kinyerésére szakosodnak.

A Google által erre a célra kifejlesztett Google File System (GFS) jó alapot szolgáltatott a különböző, nyílt forráskódú szoftverek megjelenéséhez. Az egyik legelterjedtebb ezeken az újításokon alapuló keretrendszer a Hadoop, mely köré napjainkra már széleskörű programcsaládok készültek el. Mindezek fejlesztését kiterjedt cégek mellett számos önkéntes is segíti.

Jelen szakdolgozatban két Hadoop alapon működő, SQL-szerű interfésszel rendelkező program összehasonlítását végzem el. Az Apache Hive a Hadoop környezet kényelmesebb vezérlése érdekében készült, jelenleg a 0.14-es stabil változata érhető el. Összehasonlításom másik pillérét adja az Apache Drill, melynek jelenleg a 0.6.0-s verziója a legfrissebb. Folyamatos javításainak, fejlesztéseinek köszönhetően, a Hadoop köré csoportosuló technológiák közül a legújabbak közé tartozik. Szakdolgozatom írásának kezdetén mindkét szoftverből az előző verziók voltak elérhetőek, így a Hive esetében azzal, a Drill esetében viszont a frissített verzióval dolgoztam.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.