Adatvizualizáció SQL-t támogató Big Data platformokon

OData támogatás
Konzulens:
Kocsis Imre
Méréstechnika és Információs Rendszerek Tanszék

Napjainkban egyre gyakoribb téma a Big Data probléma, amely alatt azt értjük, hogy a tradicionális relációs adatbázis kezelő rendszereink nem képesek feldolgozni az általunk termelt adatot. Ennek az oka, hogy egyre nagyobb mennyiségű és változatosságú adatot generálunk, amiből egyre kevesebb idő alatt szeretnénk információt kinyerni. A problémát tovább súlyosbítja, hogy a napjainkban népszerű felderítő adatelemzés nagy számításigényű. Így más technológia alkalmazása nélkül az adatfeldolgozás lehetetlenné vált, amennyiben pedig az adatból nem tudunk információt kinyerni, azzal nem érünk semmit.

Ennek megoldására 2011-ben új technológiát fejlesztett ki az Apache Software Foundation, a Hadoop keretrendszert. Ez a keretrendszer elosztott fájlrendszerben tárolja az adatokat és egyik alapvető tervezési aspektusa, hogy sok olcsó hardveren fusson. A Hadoop alapvető adatfeldolgozási módszere egy MapReduce típusú algoritmus, ami kötegelt adaton megfelelően működik, de közel-valósidejű adatmegjelenítéshez túl lassú.

Ezt orvosolandó egy SQL lekérdezéseket párhuzamosító adatbázis réteg jelent meg a piacon, a Pivotal Software által fejlesztett HAWQ. Ez a megoldás natívan tudja írni és olvasni a Hadoop elosztott fájlrendszerében tárolt fájlokat, ezzel helyettesítve beépített algoritmust. Egy ilyen technológia lehetővé teszi olyan diagramokhoz és grafikonokhoz szükséges adatok lekérését és azok megjelenítését, amikre eddig nem volt lehetőség a terra- vagy petabyte nagyságrendű adathalmazokon.

A HAWQ szolgáltatáshoz kapcsolódhatunk az elterjedt adatmegjelenítő környezetből, az R-ből. Amennyiben sikerül egy ilyen architektúrát összeállítani, már nem fogja limitálni az adatvizualizációs képességeinket sem a számítási igény, sem a pixelek száma, ami eddig valós problémát okozott.

A dolgozat témája egy, a fentiekben leírt rendszer kialakítása, valamint azzal a felderítő adatelemzés néhány alapvető grafikonjának megvalósítása R és SQL parancsok használatával.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.