Rövid szövegek elemzése és modellezése mély tanulással

OData támogatás
Konzulens:
Dr. Gyires-Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

A rendelkezésre álló adattömeg növekedésével, a magas számítási kapacitással bíró GPU-kal, és a neurális hálókkal elért tudományos eredményekkel a mélytanulás hatalmas figyelmet kapott a gépi tanulással foglalkozó tudósok körében. Rétegzett mély architektúrák sikeresen képesek a bemeneti adatok magasabb szintű absztrakcióinak kinyerésére és modellezésére. A mély tanulás az egyik főbb eszköze a természetes nyelvfeldolgozásnak és az idősoranalízisnek.

Ígéretes elméleti terület a mély tanulás vizsgálata gyengén koherens jelek esetén, ahol a jellemző tanulás (jellemző kinyerés) és a modellezés is nehezebb. Gyengén koherens idősor például a termékkereslet előrejelzése vagy egy adott pénzügyi eszköz és a kapcsolódó hírek tartalmának időbeli vektoros reprezentációi (beágyazásai) vagy IoT szenzorhálózatok jeleinek együttes modellezése.

A peer-to-peer, decentralizált digitális (kripto)valuták hatalmas növekedésen mentek keresztül az elmúlt években. Közel az összes kripto valutajutalmazza az úgynevezett bányászokat, akik számítási kapacitásuk felajánlásával teszik lehetővé a decentralizált szolgáltatás biztonságos működését. Ezen jutalmak valós értékkel bírnak, ami kihatással van a kripto valuták értékének növekedésére is. A meghatározó piaci jelenlét magával vonta különböző kereskedési szolgáltatások megjelenését. Ezen kereskedési felületeken hatalmas összegek forognak nap mint nap. Az árfolyam mozgás jellemzően nem mutat a klasszikus tőzsdéhez hasonló viselkedést (úgy mint trendeket, vagy napi áringadozást). A piac elemzése bonyolult, mivel a volatilitás magas, a környezet zajos, és hiányt szenved klasszikus mintákból, továbbá ezen piacok nem regularizáltak.

Sejtésem szerint a rendelkezésre álló pubilkus adatok segítségével egy adatvezérelt megközelítés felfedhet árazási anomáliákat. Ilyen rendszerek használhatóságát ígéretesnek látszik javítani különböző tématerületből származó adatok bevonásával (mint például politikai, vagy pénzügyi hírek elemzésével).

A Twitterre jellemző rövid szövegek előnyösek lehetnek egy adatvezérelt modell kialakításához. A közösségi média számos területen életünk első számú hírforrásává vált (mind politika, pénzügyi, vagy akár technológiai kérdésekben), így komoly hatással van nagy tömegekre. Ezért különösen érdekes lehet ezen hírfolyamok modellezése például piaci szentiment kinyerésre vagy álhírek detektálásánál.

Feltételezésem alapján a kripto valuták árfolyamadatai és a kapcsolódó Twitter csatornák gyengén koherens jeleknek tekinthetőek., Elképzelhető, hogy a közösségi média kihatással van az árfolyam mozgására, és az árban megjelenő ingadozások is megjelennek a bejegyzésekben.

A munkám célja mély tanulás eszközeit felhasználva vizsgálni a digitális valuták piacát, egy modellt építeni az idősorok viselkedésének modellezésére, és kiértékelni az eredményeket. Ezt a modellt természetes nyelvfeldolgozás alapú Twitter hírcsatorna elemzéssel egészítem ki. Dolgozatomban megvizsgálom az eredeti és a kibővített modell hatását a modellezés pontosságára, illetve elemzem a mély tanulás alkalmazhatóságát gyengén koherens jelek esetében.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.