Statikus és adatfolyam feletti elosztott ajánló algortimusok

OData támogatás
Konzulens:
Dr. Kővári Bence András
Automatizálási és Alkalmazott Informatikai Tanszék

A projekt célja az volt, hogy megmutassam, miként tud egy ajánlórendszer elosztott környezetben, adatfolyam felett működni.

Elsőként a a rendelkezésre álló keretrendszer alapjait kellett megismernem. Elolvastam a releváns irodalmat ahhoz, hogy megértsem az adatfolyam feldolgozás, az elosztott számítások és a modell-párhuzamos gépi tanulás alapvető fogalmait. Az implementációnk az Apache Flink rendszerre épül, ezért ezzel is meg kellett ismerkednem. Ezen kívül elolvastam az ajánlórendszerek témakörében a kutatáshoz szükséges irodalmat.

Az implementáció része a feladatnak már ismerősebb volt számomra. Elsőként az online mátrix faktorizációs algoritmust kódoltam le. Ezek után megvalósítottam a double model load (páros modell feltöltés) funkcionalitást, amely lehetővé tette, hogy a modell egy részét dolgozó csoportra töltsem fel és a többi részét pedig a szerverre. Ezek után implementáltam a top-K generáló algoritmust az [1]-ben leírtak alapján és az nDCG alapú online kiértékelést. Ezzel minden rendelkezésünkre állt, hogy megvalósítsunk egy batch & online ajánlórendszert és hogy kiértékeljük az eddigi algoritmusokat. A mérések során az implementáció úgy viselkedett, ahogy elvártuk. A modellek minősége hasonló volt a többi nyílt forráskódú szoftveréhez [2] és a rendszer teljesítménye is biztató volt. Így arra a következtetésre jutottunk, hogy a rendszer képes egy elosztott, valós idejű ajánlórendszerként működni.

A projektet két konferencián is bemutattuk [2,3], valamint részét képezi egy Horizon2020 EU [4] projektnek.

[1] Olga Mykytiuk Christina Teflioudi, Rainer Gemulla. Lemp: Fast retrieval of large entries in a matrix product. In Proc. of the 2015 ACM SIGMOD International Conference on Management of Data

[2] Róbert Pálovics, Domokos Kelen, and András A. Benczúr. Tutorial on open source online learning recommenders. In Proceedings of the Eleventh ACM Conference on Recommender Systems , RecSys '17

[3] Gabor Hermann and Daniel Berecz. Parameter server on Flink, an approach for model-parallel machine learning, Flink Forward, Berlin, 2017.

[4] H2020 Streamline, https://h2020-streamline-project.eu/

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.