Általános célú adatelemzés támogatása GPGPU-gyorsított többdimenziós hőtérképekkel

OData támogatás
Konzulens:
Kocsis Imre
Méréstechnika és Információs Rendszerek Tanszék

A nagy mennyiségű adatokon végzett felderítő adatelemzés (Exploratory Data

Analysis, EDA) egyik jellemző módszere a hőtérképpekkel való megjelenítés. A

hőtérképeket csak két dimenzióban szokták használni, és általános célú felderítő

adatelemzesre nem kielégítően megvizsgált, hogy mennyire alkalmazható három

dimenzióban.

A szakdolgozatomban bemutatok a nagyméretű adatok három dimenziós hőtérkép

alapú vizualizációjának csővezetékére két megoldást. Az egyik teljesen GPGPU alapú,

ezáltal nagyon gyors, de csak egyetlen összegző műveletet támogat az adathalmazon, a

másik félig a processzoron számol, de sokkal rugalmasabb a műveletvégzés

szempontjából. A térbeli hőtérképeket két keretrendszerrel lehet megjeleníteni és

vizsgálni. A harmadik dimenzióban történő megjelenítéssel olyan új összefüggéseket

láthatunk meg, amiket eddig nagyon nehezen, vagy egyáltalán nem találhattunk volna

meg a korábbi két dimenziós megoldásokkal.

A háromdimenziós hőtérképekkel megvalósított általános célú, Python szkriptelési környezetbe ágyazott adatelemzést, melynek megvalósítására prototípust adok dolgozatomban, példával is szemléltetem.

A New York-i taxiforgalom elemzése egy ma már klasszikusnak tekinthető Big Data vizualizációs

feladat; munkámban ennek példáján mutatom meg, hogy a kettő helyett három és több

dimenziós hőtérképek EDA alkalmazása az adatelemzés folyamatának gyorsítását, a megfelelő

hipotézisek gyorsabb megtalálását hozhatja magával.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.