Elosztott ajánlattevő rendszerek vizsgálata Hadoop platformon

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

A minket körülvevő adatok mennyisége az utóbbi években rohamos növekedésnek indult. Mára már akkora méreteket öltött, hogy az nehézkessé teszi az eredményes keresést. Az ajánlattevő rendszerek lényege, hogy a felhasználók ízlése alapján személyre szabott ajánlatokat tesz valamilyen témakörben. Ezzel mintegy elvégezve a keresést a személyek helyett.

Ahhoz, hogy ez működőképes lehessen valóban nagy adathalmazokon, elosztott működés szükséges. Ebben nyújt támogatást a Hadoop platform. A keretrendszer a Map-Reduce paradigma szerint implementált algoritmusok futtatását teszi lehetővé, és széleskörű támogatást nyújt az elosztott működéshez.

A Mahout programcsomag egy része a Hadoop platform szolgáltatásaira támaszkodva kínál ajánlattevő rendszereket. Az implementált algoritmusok még kezdetleges stádiumban vannak, így számos továbbfejlesztési lehetőség adott. A programcsomag dokumentáltsága azonban meglehetősen hiányos, ami megnehezíti haználatát.

A munkám során a Mahout és Hadoop rendszerekkel való megismerkedés, és a Mahout elosztott ajánlattevő rendszerének pontosítása volt a cél. A bemeneti adatok előfeldolgozása egy kézenfekvő lehetőségnek tűnt.

Az eredmények kiértékeléséhez szükséges volt egy keretrendszer felépítése is a mérések elosztott elvégzéséhez. A mai módszerek közül az egyik legjobban használható, és legjobb eredményeket szolgáltató mérési eljárás a keresztvalidáció. Ennek elosztott megvalósítsa nem található meg a Mahoutban.

Az előfeldolgozó lépések kiválasztásához jó elméleti alapot nyújtott Koren és Bell tanulmánya\cite{netflix}. Ők az adathalmazon végzett sajátos normalizálási folyamattal értek el jelentős javulást az eredmények pontosságában. Az ő megoldásukat valósítottam meg és mértem le elosztott módon.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.