Multidimenziós adatkezelés és bitmap indexelés

OData támogatás
Konzulens:
Dr. Gajdos Sándor
Távközlési és Médiainformatikai Tanszék

Napjaink hatalmas adathalmazainak feldolgozása komoly kihívást jelent a mérnökök az elemzők számára egyaránt. Az IBM szerint napi 2,5 exabájt adat keletkezik -- a növekedés olyan sebességű, hogy az elmúlt két évben jött létre a ma tárolt adatok 90%-a. A vezető technológiai elemző és tanácsadó Gartner 2011. augusztusában felvette az új technológiák életciklusát ábrázoló hype cycle-re a ,,Big Data'' (nagy adat) fogalmat.

Az analitikus adatbázisoknak gyakran közel valós időben kell eltárolniuk a beérkező adatokat, miközben a beérkező lekérdezéseket is gyorsan -- néhány másodperc alatt -- ki kell szolgálniuk. Így elengedhetetlen az adatok gyors és hatékony indexelése. A memória alapú adatbázis-kezelők (IMDB) az adatoknak a memóriában való tárolásával a lekérdezések gyorsítását egy drága, ugyanakkor rendkívül gyors tárolási réteggel támogatják.

Szakdolgozatom fő témája többdimenziós, memóriában tárolt adatbázisok tesztelése és gyors adatelérést biztosítő indexstruktúrák készítése.

Dolgozatom első felében röviden ismertetem a dimenziós modellezés és az OLAP rendszerek fontosabb fogalmait. Megmutatom a tesztadatok mesterséges előállításának szükségességét és bemutatok egy parancssoros eszközt, amellyel tetszőleges méretű adathalmazok készíthetők. A generált adathalmazok felhasználásával bemutatok három egyedi OLAP rendszert, az icCube-ot, a Palot és a Kürt Zrt. Colap tanulmányát.

Dolgozatom második felében összefoglalom a többdimenziós indexelés és a bittérkép indexek fő problémáit. Részletesen tárgyalom a bittérkép tömörítés csúcsát képviselő algoritmusokat és megvalósítok kettőt. Részletes méréseket végzek a tömörített és a tömörítetlen reprezentációk összehasonlítására.

Zárásként összefoglalom az irodalomkutatás és az implementáció során nyert tapasztalataimat és körvonalazom az extrém méretű adathalmazok feldolgozásának jövőjét.

A dolgozat végén szójegyzék definiálja a felhasznált fogalmakat. A függelék tartalmazza az adathalmaz előállító eszköz nyelvtanát és a felhasznált függvénykönyvtárak és szoftverek telepítési útmutatóját.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.