Adatbányászati algoritmus fejlesztése Apache Spark alapokon

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

Az elmúlt években a vállalatok által gyűjtött adatok köre és mennyisége jelentősen megnőtt. Ezen nagy adathalmazok (Big Data) kezelése új adattárolási és adatelemzési módszerek létrehozását tette szükségessé. Az adatelemzés egyik gyakran és széles körben használt eszköze a klaszterezés. Klasszikus klaszterezési módszerek alkalmazása során nem használunk semmilyen előzetes tudást az adatok klaszterekbe rendezése során. Valós problémák esetén ugyanakkor sok esetben rendelkezésünkre áll valamilyen előzetes információ, amivel a klaszterezés eredménye javítható. Ezt az előnyt használják ki a félig ellenőrzött klaszterezési algoritmusok.

Az egyik legjelentősebb nagy adathalmazok kezelésére használt platform az Apache Hadoop keretrendszer, amely szinte korlátlan skálázhatóságot biztosít. Ezen a platformon az Apache Spark az egyik leggyorsabban fejlődő programozási környezet.

Szakdolgozatom célja egy félig ellenőrzött klaszterezési algoritmus Spark keretrendszerben való implementációja és az elkészült algoritmus mérésekkel való validációja. Algoritmus elkészítése során a legfontosabb szempont skálázhatóság biztosítása.

Dolgozatomban a klaszterezés és félig ellenőrzött klaszterezés témakörének elméleti áttekintése, valamint néhány kapcsolódó konkrét klaszterezési algoritmus ismertetése után, röviden bemutatom a felhasznált Spark technológiát és a Scala nyelvet. Ezt követően pedig leírom az algoritmus implementációja során alkalmazott megoldásokat, bemutatom az algoritmussal végrehajtott kísérleteket és értékelem a kapott eredményeket.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.