Adatbányászati lehetőségek vizsgálata Hadoop környezetben

OData támogatás
Konzulens:
Dr. Ekler Péter
Automatizálási és Alkalmazott Informatikai Tanszék

A szakdolgozatomban Apache Hadoop-ra implementáltam a klaszterezési és kieső érték kereső adatbányászati algoritmusokat, név szerint a k-Means-t és a Local Outlier Factor-t (LOF). Alapvető cél a skálázhatóság volt az implementáció folyamán, hogy az elkészült alkalmazások akkora adathalmazokon is lefuttathatóak legyenek, amikkel hagyományos eszközökkel már nehézkesen, vagy egyáltalán nem tudnánk hagyományos eszközökkel boldogulni ezek mérete és az algoritmusok számításigényessége miatt. A teszt adathalmazokon a skálázhatóságot mind a MapReduce LOF, Spark LOF és MapReduce k-Means implementációkon sikerült elérni. Az algoritmus implementációk működésének helyessége a feladatkiírásnak megfelelően verifikálva van, tehát alapvetően megbízhatónak mondhatóak. Az eredmények vizualizációja mind a klaszterezés és kieső érték keresés esetén extra információval bír, a vizsgált algoritmusok segítségével kinyerhető többlet tudást adja át. A két adatbányászati algoritmus tekintetében az implementációhoz választott technológiák közül az Apache MapReduce egy rendkívül megbízható és kiforrott keretrendszernek bizonyult, az Apache Spark-ot pedig egy könnyen használható BigData szoftver imsertem meg, ami jelenleg rendkívül dinamikusan fejlődik.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.