Céghálózat elemzése online szöveges források alapján

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

Mind piaci, mind pedig ipari környezetben szükség van olyan ismeretekre, melyek vagy a többi piaci szereplő helyzetét írják le egymáshoz képest, vagy egy cég saját helyzetét írják le másokkal szemben egy pozícióban.

A világháló terjedésével számos online hírforrás áll rendelkezésre, mely ezeket az információkat, ha közvetve is, de a rendelkezésünkre bocsátja. Az ilyen típusú természetes nyelvű információkban gazdagon találhatóak a fenti kérdéseket megválaszoló ismeretek.

Dolgozatom első részében ezeket a híreket gyűjtöttem össze és dolgoztam fel, hogy azokból később szövegbányászati módszerekkel formalizálást végezzek és abból egy, a laikus számára is jól látható, modellt építsek. A feladat során, az összegyűjtött híreken természetes nyelvi feldolgozást végeztem, hogy tulajdonneveket nyerjek ki belőlük. Ezek szűrése után a kapott elemekből egy gráf épült, mely később egy gráf rajzoló algoritmus segítségével vizualizálta az eredményt.

Ezen folyamatok jól szétválasztható műveletek az egyes adathalmazokon, így azokat összekötve egy olyan szoftver architekturális környezet kerül lefejlesztésre, mely bemeneti hírfolyamból egy cégkapcsolati gráfot generál.

A folyamatok feldolgozáshoz Pythont, és a fent említett funkciókat megvalósító szolgáltatásokat alkalmaztam.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.