Adatgazdagítás a közösségi profilozás segítségével

OData támogatás
Konzulens:
Nagy István
Távközlési és Médiainformatikai Tanszék

Napjainkban egyre nagyobb teret nyernek azok az adatbányászati megoldások, amelyek a publikusan elérhető közösségi oldalak adatait dolgozzák fel. A weben létrejövő szöveges tartalmak elemzésének egyik iránya olyan személyes profilok létrehozására fókuszál, amelyek lehetővé teszik a személy részletesebb megismerését és viselkedésének előrejelzését. Ezek létrehozásához a közösségi oldalak kimeríthetetlen információforrást jelentenek. Az így keletkező személyiségprofilok bemenetet jelenthetnek más, bonyolultabb adatelemzési feladatokhoz.

Szakdolgozatom célja adatgyűjtés közösségi oldalakról abból a célból, hogy a gyűjtött adatokból megadott inputra illeszkedő személyiségprofilokat hozzak létre. Az adatok gyűjtését és feldolgozását magyar és angol nyelvű profilokra specializálom. A feladatom része az adatok legyűjtése, feldolgozása, valamint a kapcsolatok feltárása, illetve a lehetséges továbbfejlesztési irányok ismertetése.

Az adatgyűjtéshez három közösségi oldal jelentett forrást. Munkám során megismertem a Twitter, a LinkedIn és az Instagram közösségi oldalakat, azok felhasználói profiljainak felépítését, továbbá az adatok hozzáférésének módját. Megterveztem és implementáltam egy olyan szoftvert, amely képes erről a három oldalról adatokat gyűjteni és rendezetten tárolni. Ezután a gyűjtött adatok minőségi javulása érdekében adatelkészítő lépéseket hajtottam végre. Eközben ügyeltem arra, hogy csak a kellő mennyiségű releváns információt tartalmazó profilokat hagyjam meg, a többit kiszűrjem.

A kapcsolatok feltárásához szabályokat dolgoztam ki, melyekkel a gyűjtött adatok és az input név közötti kapcsolat feltárható. Heurisztikákkal biztosítottam, hogy a szoftver képesen legyen akkor is dönteni, ha egyszerre több profil is illeszkedik a megadott névhez. Ezt követően valós adatokkal teszteltem az adatgazdagító szoftverem hatékonyságát. Feltártam az esetleges gyenge pontokat és szűk keresztmetszeteket. Többféle alternatívát kipróbálva megkerestem a legmegfelelőbb megoldást, amellyel adott személyekhez kapcsolhatóak az információk.

Végül áttekintettem az elkészített szoftver továbbfejlesztési lehetőségeit a gyűjtő modultól az adatelőkészítésen át a tényleges elemzésig. Javaslatot tettem az így feltárt hiányosságok és a prototípus helyenkénti egyszerűségéből fakadó pontatlanságok kijavítására, valamint a hatékonyság növelésére.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.