Skálázható eljárások adatbányászati modellek visszamérésére

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

Egy adatelemzési probléma kidolgozása során az épített modellek teljesítőképességének visszamérése kritikus a sikeresség szempontjából. Ezek a mérőszámok teszik összehasonlíthatóvá az elvégzett munka minőségét, segíthetnek alternatívák közötti választásban, legyen szó a megfelelő modell kiválasztásáról, vagy éppen a paraméterek optimalizálásáról. Segítségükkel objektív és egyszerűen kommunikálható mutatókkal igazolhatjuk döntéseinket az adatbányászati modellezés során.

Egyes mérőszámok kiszámítása azonban algoritmikus értelemben komplex feladatnak bizonyul. Sok esetben a megnövekedett adatméret a gondok forrása, a hagyományosnak tekinthető algoritmusok ugyanis nem minden esetben vannak felkészítve ekkora adathalmazok kezelésére. Nagyobb gondot jelent, ha nem is léteznek ismert alternatív módszerek, melyek nagyméretű adaton ésszerű időkeretek között lefutnának, megbízható eredményt szolgáltatva. Munkámban a bináris osztályozás mérőszámaira összpontosítva mutatom be a problémakört, és kidolgozom a leggyakrabban használt konfidencia alapú metrika, az Area Under Curve különböző kiszámítási eljárásait. Ezek a módszerek alkalmasak – megfelelő infrastruktúra biztosítása mellett – tetszőlegesen sok adatsoron kiértékelt modell mérésére is, a végrehajtási idő számottevő megnövekedése nélkül.

Az implementáció és a mérések mind egygépes környezetben, Python alapokon, mind klaszterezett környezetben, Hadoop alapú megoldásokat alkalmazva megvalósítást nyertek. Az eredmények kiértékelésével és összehasonlításával olyan alternatív megoldásokat dolgoztam ki, melyek közül az aktuális problémához adaptáltan, a legalkalmasabb módszer könnyűszerrel kiválasztható.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.