Osztályozási feladatok megvalósítása elosztott környezetben

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

A világban elérhető adatmennyiség növekedésével halmozottan növekednek az elemzendő adathalmazok. Ennek ütemével egyre nehezebben tartja a lépést a számítási és tárolási kapacitások növekedése. Az utóbbi években egyre nagyobb szerepet kapnak az olyan adatbányászati feladatok, ahol a rendelkezésünkre álló adatok nem, vagy csak körülményesen elemezhetőek az eddig használt, kiforrott eszközökkel, pl. RapidMiner, SAS, IBM SPSS Modeler. Ennek a problémának a megoldására elosztott számítási keretrendszerek jöttek létre, azonban ezek korlátai és felhasználási lehetőségei még nem ismertek.

A szakdolgozat célja, hogy adatbányászati és felhasználási szempontból kiértékelje az Apache Mahout elosztott keretrendszer osztályozási algoritmusait. Munkám során irodalomkutatást végeztem az osztályozási algoritmusok és a Hadoop elosztott rendszer megismerésére, valamint kialakítottam egy könnyen használható tesztkörnyezetet néhány kiválasztott osztályozó kiértékeléséhez. Az elkészült tesztkörnyezettel méréseket végeztem és összehasonlítottam a kiválasztott osztályozókat a RapidMinerben eredetileg létező megoldásaikkal.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.