Elosztott algoritmusok fejlesztése Apache Hive alapokon

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

Az elmúlt évtizedben az elektronikus adattároló eszközök tárkapacitás tekintetében hatalmas fejlődésen mentek keresztül, miközben áruk egyre csökkent, így egyre több és több adat kerül tárolásra a vállalatok mindennapi tevékenysége során. Ahhoz, hogy ezen adattömegből kézzelfogható és valóban hasznos információkhoz jussunk, meg kell látni a bennük rejlő rejtett összefüggéseket. Erre a hagyományos adatfeldolgozó és adatelemző módszerek csak korlátozottan vagy egyáltalán nem alkalmasak, hiszen – ha képes is eredményt produkálni az adott eljárás – a számítás olyan sok időt vehet igénybe, hogy az eredmények sokszor már nem aktuálisak.

Nem triviális azonban meghatározni, hogy mely statisztikai és adatelemzési algoritmusokra nem használhatóak az eddigi módszerek Big Data környezetben, illetve melyek azok, amikre nem létezik még megfelelő hatékonyságú implementáció. A diplomamunka keretében elsősorban az üzleti intelligencia területén használatos analitikai jellegű (OLAP) funkciók és különböző dimenziócsökkentési eljárások kerülnek bemutatásra és implementálásra.

Néhány fontosabb eljárás vizsgálata után három kiválasztott algoritmust fejlesztettem tovább elosztott módon, Big Data környezetben. A fő célkitűzés az volt, hogy a készített implementációk hatékonyan használhatóak legyenek olyankor is, amikor pusztán a dimenziók száma már nem teszi lehetővé a hagyományos eszközök használatát. A feladat megoldásához az igen népszerű és széles körben használt Hadoop platformot, illetve az erre épülő adattárház réteget, az Apache Hive-ot választottam. Ez utóbbi rendszer lehetőséget kínál felhasználó által definiált eljárások Java nyelvű implementációjára. Ezt a funkciót használtam fel a főkomponens-analízishez szükséges korrelációs mátrix előállítására, egy elterjedt információelméleti mutató, az információtartalom (information gain) kiszámításához szükséges entrópia és feltételes entrópia számolására, valamint a forgatás (Pivot) OLAP művelet megvalósítására.

Mint azt a dolgozat második felében bemutatásra kerülő mérési eredmények is igazolják, a fent említett problémákra az eddig használt módszerek és a Hive-ban elérhető beépített eljárások már néhány száz dimenzió esetén is a gyakorlatban használhatatlannak bizonyultak. Az általam tervezett és implementált algoritmusok azonban képesek ezen feladatokat akár több ezer attribútumból álló adathalmazon is hatékonyan elvégezni.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.