Politikai trendek és közéleti témák vizsgálata az Egyesült Államok hírportáljai alapján szövegelmezési algoritmusok segítségével

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

A távközlési technológiák nagyléptékű fejlődésének következményeként a szélessávú internet mindennapjaink szerves részévé vált. Az interneten keletkező adatok mennyiségéből kifolyólag azok feldolgozásához szükségünk van automatizált módszerekre is. Az állítás különösen igaz az on-line hírközlés világában. A felhasználói igények megváltozásának hatására nem elegendő a hírek heti, vagy napi gyakorisággal történő frissítése: az események számossága és a történések sebessége a trendek folyamatos változását okozza.

Dolgozatom célkitűzése, hogy a nagy adathalmazok feldolgozását szövegbányászati eljárásokkal megtámogassuk egy olyan rendszer létrehozásával, ami a hírportálok szövegeit begyűjti, feldolgozza és kategorizálja. A szoftver elkészítésének lépéseit részletesen dokumentálom, a kapcsolódó elméleti háttér bemutatásától az optimalizálási lehetőségek feltárásig.

Az eljárások működésének demonstrációját szolgálva olyan adatforrásokat választottam, amelyek biztosítják a folyamatosan változó, de logikai kohézióval rendelkező nagymennyiségű szöveghalmazokat.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.