Elosztott adatbányászat RapidMiner alapokon

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

Az elmúlt 10 évben a számítógépes rendszerekben tárolt adatok robbanásszerű növekedése következett be, ám ehhez elengedhetetlen volt az elosztott számítógépes rendszerek rohamos fejlődése. Jelentős infrastruktúrális és architektúrális különbségek alakultak ki az adat tárolására, adat feldolgozásra vagy csak számítási kapacitásból létrehozott számítógép fürtöknél, ám mára minden rendszernél közös elvárás, hogy azok megfelelően skálázhatóak, megbízhatóak és hatékony elosztott működésre legyenek képesek.

Az adatbányászat célja, hogy nagy mennyiségű adatot feldolgozva, értelmes, de eddig nem ismert összefüggéseket és tudást nyerjünk ki. Az adatok elemzői számára számára sok felhasználóbarát grafikus alkalmazás áll rendelkezésére, ám egyikük sem rendelkezik kimondottan nagy, akár több PB méretű adatok feldolgozásának támogatásával.

Diplomamunkám célja, hogy az olvasó számára betekintést nyújtson a ma legelterjedtebb adatfeldolgozásra használt elosztott számítógépes rendszerek világába, bemutassa ezek előnyeit és hátrányait. A ma használt egyik legnépszerűbb ingyenes adatbányászati szoftver, a RapidMiner bemutatását követően egy, a célnak leginkább megfelelő keretrendszer kiválasztása során felmerülő kérdéseket vizsgálom meg. A válaszok után egyértelműen a Hadoop elosztott rendszerre esett a választás. A dolgozatom következő részeiben bemutatom, hogy hogyan történik a két rendszer integrációja, mely során részletesen kitérek a legfontosabb tervezési kérdésekre. Az utolsó fejezetben az elkészült szoftver teljesítmény tesztjének részletes leírása található. Az elkészült kiegészítés teljesíti az előzetesen támasztott elvárásokat: nagy adat feldolgozásánál kivállóan skálázódik, az integrált elosztott adatbányászati algoritmus pedig képessé tesz az alkalmazást, hogy nagy mennyiségű adatokat is képes legyen feldolgozni.

Munkám végső célja egy működő szoftver fejlesztése, mely a RapidMiner szoftvert alkalmassá teszi elosztott rendszeren történő adatelemzési feladatok végrehajtására. A fejlesztés során külön figyelmet fordítottam fejlett tervezési minták alkalmazására, mely révén az elkészült szoftver teljes mértékben megfelel a mai magasszintű programozási nyelvek által megkövetelt elvárásoknak.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.