Adatbányászati elemzés félig felügyelt tanulási módszerekkel

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

Napjainkban a technikai fejlettség óriási adatmennyiség rögzítését és feldolgozását teszi lehetővé. Egyre nagyobb igény van adatbányászati elemzésekre, melyekkel az adatok rejtett jellemzői, újonnan felfedezhető összefüggései tárhatók fel. Az ilyen algoritmusok egy csoportja, a felügyelt tanulási módszerek azt a feladatot képesek megoldani, hogy a tárolt entitások valamely tulajdonságát (célváltozóját) egy betanított modell alkalmazásával meg tudják becsülni. Erre a feladatra jó példa a pénzügyi szektorban a hitelbírálati folyamat során annak előrejelzése, hogy az ügyfél képes lesz-e visszafizetni a kapott kölcsönt.

Az ilyen jellegű feladatokat megoldó modell előzetes betanítása magas teljesítmény eléréséhez megfelelő mennyiségű és jól strukturált adatot igényel. Olyan esetekben, amikor a célváltozó nem vagy csak költséges módon érhető el, félig felügyelt algoritmusok használhatók.

Diplomatervemben egy olyan félig felügyelt rendszer kiépítése volt a célom, mely eredményesen kezeli a célváltozó hiányzó értékeiből fakadó problémát. Az eljárást úgy terveztem meg, hogy létező felügyelt modelleket használjon fel. Ezután az algoritmus az eredmények feldolgozásával és visszacsatolásával iterálva, fokozatosan közelítsen az elérhető legjobb teljesítményhez. A feldolgozás során gráf-alapú reprezentáció segítségével használtam fel a hiányzó célváltozóval rendelkező adatokat. Az implementációt a RapidMiner adatbányászati szoftver és Java technológia felhasználásával készítettem el.

Az elkészült algoritmust az általam készített tesztrendszer segítségével értékeltem ki. Pénzügyi, biztosítási és tudományos témájú adathalmazokon a bemeneti paraméterek széles tartományát vizsgálva optimalizáltam az eljárás teljesítményét. Egy sokszor használt felügyelt tanulási algoritmust is kiértékeltem azonos körülmények között, majd összevetettem a két modell eredményeit.

A félig felügyelt algoritmus elsősorban ott teljesített jobban, ahol a betanításhoz kevés adat állt rendelkezésre, valamint nagy részüknél hiányzott a célváltozó értéke. Ebben az esetben a vizsgált adathalmazokon átlagosan 0,032-es AUC-érték növekedést sikerült elérni. Az eredményeket és a belőlük levont következtetéseket felhasználtam az algoritmus továbbfejlesztési irányának meghatározásához.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.