Tőzsdei árfolyamváltozások előrejelzése tweetek segítségével

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

Noha a tőzsdei árfolyamok előrejelzése összetett feladat, a közösségi média növekvő népszerűségének köszönhetően - a hagyományos eljárásokon túl - olyan új módszerek készíthetők, melyek a közösségi tartalmakban rejlő hangulati információk használatával kísérlik meg az árfolyamok előrejelzését.

Diplomamunkámban azt vizsgálom, hogy a közösségi tartalmak tekinthetők-e a jövőbeli tőzsdei árfolyam-változások egyfajta indikátorának vagy sem, nevezetesen a Twitter-üzenetekben rejlő hangulati információt használom fel a New York-i tőzsde értékpapír-árfolyamainak becsléséhez.

Két, a legfrissebb hangulatelemzési technikákra épülő módszercsoportot mutatok be. Az első csoport hangulat-osztályozásra, míg a második csoport az ún. hangulat-szótárakra épül. A hangulat-osztályozási csoport két további al-változatra bontható, az egyik szavakat használ jellemzőként, míg a másik a Twitter mikroblog-környezet nyelvi jellegzetességeit próbálja megragadni és jellemzőként felhasználni. A hangulat-szótárakra épülő változatban öt népszerű szótárat alkalmaztam a Twitter üzenetekben rejlő hangulat megállapítására.

Az azonosított hangulat további pontosítása végett kidolgoztam két módszert, melyek az összes üzenet közül csak a meghatározó hangulati információval rendelkezőket tartják meg. Az első módszer a felhasználók relevanciáját kifejező mértékeket határoz meg, majd csak a releváns felhasználókhoz tartozó üzeneteket használja fel. A második módszer csak az angol nyelvű üzenetekre fókuszál.

A kiértékelés során több érdekes megfigyelés tehető. Elsőként említendő, hogy a hagyo-mányos szóstatisztikára épülő megoldás egyértelműen alulteljesít a két másik módszer-csoporthoz képest. Másodszor, noha szöveges dokumentumok osztályozásának egyik haté-kony eszköze a szupportvektor-gépekkel történő osztályozás, Twitter-üzenetek hangulati osztályozásánál a naiv Bayes és a neurális hálókra épülő módszerek jobban teljesítenek. Harmadszor, a mikroblog-környezet nyelvi jellegzetességeit használó módszer, egyszerűsége ellenére, felveszi a versenyt a népszerű hangulat-szótárakra épülő megoldásokkal. Végül, de nem utolsó sorban fontos megjegyezni, hogy a releváns üzeneteket szűrő módszerek alkalmazásával mérsékelt, de egyértelmű növekedés érhető el az alap eredményekhez képest.

A különböző módszereket használó osztályozók között előforduló döntési ellentétek miatt arra a következtetésre jutottam, hogy a különféle módszerek az adathalmazt különbőző hangulatúnak értékelik, az adatok különböző jellemzőit veszik figyelembe. A lehető legpontosabb hangulatértékelés érdekében készült egy kombinált módszer, ami a három fő módszercsoport legjobb konfigurációit használva ígéretes eredményeket ad.

Az elért eredményeket más publikált eredményekhez hasonlítva megállapítható, hogy a kifejlesztett módszerek közel olyan jól teljesítenek, mint a hagyományos előrejelzési technikák. Továbbá egy egyszerű kereskedési szimuláció tapasztalatai alapján kijelenthető, hogy a közösségi média, nevezetesen a Twitter-üzenetek a közeljövőbeli tőzsdei-árfolyamváltozási irányok egyfajta indikátorának tekinthetők.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.