Analitikai megoldások Big Data környezetben

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

A szövegbányászat során strukturálatlan, szöveges adatokon dolgozunk.

Diplomamunkám fő célja a mesterséges (programozási) nyelvek vizsgálata

szövegbányászati, adatbányászati módszerekkel. Mindkét tudomány rendkívül fiatal, és

dinamikusan fejlődő.

További célom volt, hogy az elemzések végrehajtását BigData környezetben,

szemlélettel végezzem. Ez annyit jelent, hogy a használt technológiák elosztott

rendszereken (is) működőképesek, skálázhatóak, hibatűrőek, valamint az algoritmusok

jól párhuzamosíthatóak.

Munkám során kizárólag nyílt forráskódú eszközökkel dolgoztam. Az

adattároláshoz a Hadoop HDFS-t (Hadoop Distributed File System) használtam, az

adatelemzéshez pedig a Hadoop framework egyik legfiatalabb tagját, az Apache Sparkot. Ezen eszközök segítségével felállítottam néhány „baseline” algoritmust osztályozás

végrehajtására. Majd ezeket összevetem komplexebb adatbányászati, szövegbányászati

technológiákkal.

Az első fejezet tartalmaz egy rövid bevezetőt, áttekintést. A második fejezetben

ismertetem a szövegbányászat és az adatbányászat leggyakoribb módszereit, eljárásait.

Kitérek a kapcsolódó fogalmakra, algoritmusokra. A harmadik és negyedik fejezetben

bemutatom a felhasznált technológiákat, vagyis a Hadoop-ot és a Spark-ot. Az ötödik

fejezet tartalmazza a teljes megvalósított projektet. Bemutatom az implementált

algoritmusokat, kielemzem azok eredményeit. Felhasználom a Spark MLlib

függvénykönyvtárát mely segítségével gépi tanulást hajtok végre. A hatodik fejezetben

összefoglalom munkám eredményét, valamint ismertetem a továbbfejlesztési

lehetőségeket.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.