Anomália detekciós eljárások összehasonlítása Python környezetben

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

A számítástechnika fejlődésével egyre több és több adatot kell nem csak tárolni, de feldolgozni is. Ennek következtében egyre nagyobb figyelem irányul az adatbányászatra (data miningra), melynek lényege, hogy nagymennyiségű adatból különböző algoritmusokkal kibányásszuk a nekünk szükséges részeket. Ezen elemzésen belül én az anomália detektálással foglalkoztam, mely nagy segítség a különböző csalásgyanús esetek felderítésében. Csalás alatt jelen esetben azt értjük, hogy a Telia Carrier hálózatában történő szereléseket végző alvállalkozó többet számláz, mint azt az elvégzett munka megkövetelné. A detektáló módszer lényege, hogy kiszűri az adathalmaz átlagos elemeitől lényegesen eltérő eseteket, azonban fontos, hogy e módszerrel nem tudunk 100%-os pontosságot elérni, de megfelelő kikötésekkel, nagy valószínűséggel ki tudjuk szűrni a gyanús eseteket. Végül azonban szükségünk van szakértőre, aki eldönti, hogy a gyanús eset valóban csalás-e. Szakértő alatt itt egy olyan emberre gondolunk, aki tisztában van a szerelések átlagos időtartamaival, valamint az azokhoz tartozó árakkal.

A szakdolgozatomban tehát először ismertetem a különböző anomália detektációs stratégiákat, majd az általam kiválasztottakat megvalósítom és összevetem az általuk adott eredményeket. Ehhez a Telia Carrier Hungary Kft-től kapott szerelési adatokon dolgoztam, természetesen a szakdolgozatom eredményeit úgy módosítva, hogy a cégnek ne okozzak kárt vele.

Az osztályozást elvégző szkripteket Jupyter Notebookban készítettem el, melyben Python programnyelven írtam a kódomat. Ez azért is fontos, mivel a Python nyelv nagyon népszerű a Big Data elemzés világában, és így annak terjedésével erre a nyelvre is egyre nagyobb szükség lesz.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.