Felhasználók hozzászólásainak előrejelzése a blogok világában

OData támogatás
Konzulens:
Dr. Szeszlér Dávid
Számítástudományi és Információelméleti Tanszék

Az utóbbi évtizedben a közösségi média (social media) szerepe rendkívüli módon felértékelődött. A közösségi média egyik legjelentősebb fóruma a blogok, amelyeken felhasználók változatos témákban fejthetik ki véleményüket és reagálhatnak más felhasználók véleményeire. A blogok, a felhasználók, és a hozzászólások így egy bonyolult kapcsolati hálót alkotnak, melyeknek alakulása, változása nehezen megjósolható folyamat.

Dolgozatom célja elsősorban annak megjósolása, hogy egyes userek milyen blogokra, és hány darab hozzászólást fognak létrehozni egy jövőbeli időszakban. Ez a probléma megfogalmazható úgy, mint egy él-előrejelzési feladat páros gráfokban. Napjaink egyik népszerű algoritmusa él-előrejelzések céljából a ritka mátrixok faktorizációja (ajánlórendszerek esetén is gyakran használják ezt a módszert). Ezt az algoritmust implementáltam és alkalmaztam az összegyűjtött és adatbányászati eszközökkel megfelelően elő-feldolgozott valós életbeli adatokra.

Az első eredmények azt mutatták, hogy a mátrix faktorizáció eredménye, habár tartalmaz a jövőbeli hozzászólásokra vonatkozó felhasználható információkat, nem alkalmas önmagában a hozzászólások hatékony előrejelzésére, mivel azok valós eloszlásáról nem alkot megfelelő képet. Ezért különböző kísérletekkel megpróbáltam meghatározni, a faktorizáció eredményének azt a felhasználási módját, amely a legjobban kihasználja a benne található, felhasználói szokásokra vonatkozó információt. A kísérletek eredményét a felidézés és a pontosság együttes mérésén keresztül értékeltem ki.

A mátrix, amelyen a faktorizációt végezzük, felfogható úgy is, mint ami minden felhasználóhoz a hozzászólási szokásai alapján egy n dimenziós vektort rendel (n a feldolgozott blogok számát jelöli). A mátrix faktorizáció egyik „mellékterméke” egy olyan mátrix, amely minden felhasználóhoz az őket leíró n dimenziós vektorból egy kisebb dimenziószámút rendel hozzá, amely azonban elvileg ugyanazon információt tartalmazza. A dolgozat második felében az vizsgálom, hogy ezek a vektorok alkalmasak lehetnek-e arra, hogy a felhasználók között szokatlan, abnormális viselkedésűeket azonosítsunk. Továbbá azt is megvizsgálom, hogy a faktorizáció eredményeként kapott felhasználókat jellemző (kisebb dimenziószámú) vektorok is ugyanezen anomáliákat azonosítják-e a userek között.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.