Kurzorváltozók kiaknázási lehetőségei tranzakciós adatok elemzésében

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

A tranzakciós adatokon végzett adatbányászat egy széleskörűen alkalmazott ügyfélanalitikai módszer, melynek gyakorlati hasznossága napjainkban megkérdőjelezhetetlen. Ügyfeleink jövőbeli viselkedésének előrejelzése azonban a szokásostól eltérő eszköztárat, speciális megközelítést igényel. Kiemelt szerepet kap benne az időbeliség és annak megfelelő kezelése, valamint az adatrekordok entitáshoz csoportosítása. E szempontokat szem előtt tartva – két hagyományos eljárás mellett – egy újszerű módszerrel végezzük az attribútumok előállítását. Ez a módszer a kurzorváltozók használatán alapul, mely segítségével az egy entitáshoz tartozó események mélyére hatolunk azáltal, hogy egy pozíciót kijelölő kurzorral folyamatosan vizsgáljuk az események történését.

A kurzor az események egy kis szegmensét veszi egyszerre figyelembe, és ebből képez változókat. A kurzorváltozó kurzoroperátorból és kurzorkalkulátorból áll, melyek rendre a kurzor léptetéséért és az új kurzorpozícióban talált vagy számított érték létrehozásáért felelnek, így jönnek létre az attribútumok. A léptetés rekurzív végrehajtásával nagy mennyiségű új változó jön létre, melyekből feature selection módszerekkel választjuk ki a leghasznosabbakat. Végül a modellépítéshez konvencionális modell-alapú osztályozókat alkalmazunk.

A feladat során az egyik fő cél annak vizsgálata, hogy milyen jellegű és mélységű kurzorváltozók írják le jól az entitás viselkedését, hogyan magyarázzák azt. Tapasztalataink alapján olyan következtetéseket kívánunk levonni, amelyek módszertan-szerűen írják le a változók kialakításának lehetőségeit, így irányadóak lehetnek más adathalmaz esetén is. A vizsgálat másik eredménye az újonnan létrehozott attribútumokra épített modell teljesítőképessége, melyet tovább javítunk hagyományos módszerekkel létrehozott változók hozzávételével.

A feladatot Python programozással oldjuk meg, mely a scikit és pandas nevű kiegészítő csomagjaival megfelelő alapot biztosít mind az adatmanipulációs, mind az adatbányászati műveletek hatékony elvégzéséhez.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.