Cégek szektorbesorolásának támogatása szövegbányászati módszerekkel

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

Jelen kutatási projekt a cégek iparági besorolását tűzi ki céljául az online sajtóban fellelhető különböző gazdasági cikkek kontextusának elemzésével. Az iparági szektorismeret elengedhetetlen a sikeres üzleti stratégia meghatározásában. Többek között segítségével az üzleti vezetők könnyen eldönthetik egy másik vállalatról, hogy tevékenységéből adódóan az versenytárs, potenciális stratégiai partner, érdemes-e avagy ajánlott-e felvásárolni, stb.

Magyarországon az iparági besorolást tartalmazó hivatalos adatbázisok elavultak, nem teljesek és gyakran érkezik panasz a bennük tárolt adatok hitelességét illetően. Ennél fogva a döntéshozók kiegészítő adatbázisok használatára kényszerülnek, ami viszont költséges és legtöbbször egyszerre csak egy adott cég adatainak lekérdezését teszik lehetővé, iparáganként az összes céget azonban nem jeleníthetjük meg. Az adatbányászati és szövegbányászati technológiák innovatív megoldásként a 21. századra olyan metódusokat ajánlanak, amikkel lehetségessé válik weblapok elemzése, óriási információ mennyiségek kinyerése az Internetről illetve ezek adatbázisokba történő rendezése strukturált adatok formájában.

A kutatás fő célja tehát egy innovatív technológiák és metódusok felhasználásával készült, friss adatokat tartalmazó adatbázis létrehozása, ami képes a legújabb gazdasági és üzleti témájú információk kinyerésére az Internetről elősegítve ezáltal egy automatizmegoldás megteremtését a szektor és iparági tudásbázis javításához

A RapidMiner nevű szoftver keresőrobot kiterjesztését a szövegfeldolgozó és szövegbányász eszközeivel sikeresen ötvözve egy osztályozó modellt építek, ami képes meghatározni egy adott online cikk iparági kontextusát. Egy második fázisban a vállalatok neveit nyerem ki az eltárolt cikkekből, majd a cikkek iparági besorolása és hálózati információ alapján különböző címkéket kapnak. Mivel a cégek különböző tematikájú cikkekben is szerepelhetnek a magyar vállalatok meghatározása után kiválasztom azokat a címkéket, amelyek konfidencia szintje a legmagasabb az összesített osztályozást követően. Utolsó lépésként pedig leíró statisztikák és további elemzések készítésére kerül sor.

A fő lépések az alábbiak szerint határozhatóak meg:

A világháló keresése a RapidMiner keresőrobot funkciójával, optimalizálni a keresési kritériumokat a különböző témakörökhöz és weblapokhoz, kinyerni a gazdasági irányzatú cikkeket kilenc különböző témakörben öt különböző magyarországi hír portálról (Világgazdaság (www.vg.hu), Portfólió (www.portfolio.hu), Népszabadság Online (www.nol.hu), Origo (www.origo.hu) és HVG (www.hvg.hu)), majd kimenteni ezek tartalmát, hogy az osztályozó modell tanuló algoritmusában felhasználásra kerüljenek. A beállított paraméterek a keresés során portálonként és iparáganként eltérnek, ugyanis ezek felépítésükben különböznek egymástól, így más feltételeket kell alkalmazni, hogy a legjobb találatokat érhesse el a kereső. Az így összegyűjtött cikkek száma meghaladja a huszonháromezret, ami óriási adathalmaznak minősül szövegbányászati elemzéshez.

A következő része a kutatási feladatnak a dokumentumok feldolgozása: tartalmuk kinyerése, szavak vagy más elemi szintű objektumokra való bontása (tokenizálás), betűegységesítés (minden nagybetű kisbetűre való alakítása), objektumok szűrése hossz és tartalom alapján, illetve előfordulásuk gyakorisága alapján (stopword-ök kiszűrése, mint „és”, „az”, „hogy”, stb.).

A legjobban illeszkedő modell kiválasztása: egy fontos lépése a kutatásnak kiválasztani a RapiMiner által elérhető széles választakból azt a modellt, ami az osztályozást a leghatékonyabban és a legjobb pontossággal végzi. Polinomiális osztályozáshoz a leggyakrabban használatos modellek a Naive Bayes osztályozó, a neurális hálók és a k-legközelebbi szomszéd (K Nearest Neighbor - KNN) módszere. Az redukált adathalmazon legjobban teljesítő modell kiértékeléséhez a vevő működési karakterisztika (Receiving Operating Characteristic – ROC) görbét alkalmazom minden egyes címkéhez. Az eredmény 9 különálló grafikon, amelyek címkénként rajzolják ki a Naive Bayes, neurális háló és KNN algoritmusok által osztályozott értékek valós pozitív és fals pozitív arányát. A grafikonokból világosan leolvasható, hogy egy kisebb adathalmazon a legtöbb esetben a KNN teljesített a legjobban.

A következő fázisban az előzetesen kigyűjtött és osztályozott online cikkekben szereplő, különböző keresési feltételeknek megfelelő magyar vállalatnevek kimentésére kerül sor.

Az eredmény tovább fejleszthető 2 hálózat megrajzolásával és elemzésével. Az egyikben a cikkek jelentik a csomópontokat, amelyek szomszédosak, ha mindkettőben szerepel ugyanaz a vállalatnév, a másikban két vállalat szomszédos, ugyanabban a cikkben szerepelnek. Az így kapott hálózatokon klaszteranalízis végezhető, amivel a modell tovább tanítható.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.