Automatikus attitűdelemzés webes környezetben

OData támogatás
Konzulens:
Nagy István
Távközlési és Médiainformatikai Tanszék

Az adatbányászat egyik speciális területe a szövegbányászat,

amely szöveges tartalmakból nyer ki üzletileg értékes összefüggéseket, információkat. A

közösségi oldalak terjedésével soha nem látott lehetőségek nyíltak meg az adatelemzés

területén.

Diplomamunkám célja a közösségi oldalakon található tartalmak elemzése, abból a

célból, hogy azok milyen attitűdöt hordoznak. Az érzelemdetektálást politikai területen

végzem, magyar politikai szervezetekkel, politikusokkal szembeni attitűdöket viizsgálok.

Feladatom magába foglalja az adatgyűjtést, az adatok kezelését, címkézését majd

szövegbányászati elemzését, különböző modellek kidolgozását, és végül azok

visszamérését, értékelését.

Az adatgyűjtés során a Facebook közösségi oldalról gyűjtöm az ott elérhető politikai

témájú tartalmakat. Ehhez egy adatgyűjtő szoftvert terveztem és fejlesztettem, amely

képes a publikusan elérhető hozzászólásokat letölteni, majd elemzésre alkalmas

formában tárolni.

Ezután egy mintavételezés során egy kisebb halmazt hoztam létre, figyelve arra, hogy a

gyűjtés során olyan tartalmak is mentésre kerültek, amelyek nem alkalmasak elemzésre.

Ezeket ebben a fázisban szűrtem, biztosítva a később felhasználásra kerülő adathalmaz

minőségét.

Érzelmek detektálására, illetve az érzelmek felismerésére alkalmas modellek

létrehozásához címkézett tanító és teszt adatokra van szükség, ami azt jelenti, hogy a

tartalmak egy részénél meg kell lenni az érzelmi annotációnak. Erre a feladatra jelenleg

csak emberek képesek, géppel automatizált annotálás jelenleg nem létezik, magyar

nyelvre pedig még publikusan elérhető címkézett halmazok sem találhatóak. Ehhez egy olyan megoldást javasoltam és implementáltam, ami sok ember számára teszi lehetővé az interneten keresztül gyűjtött adatok címkézését, így előállítva a teszt és tanuló

halmazokat.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.