Szakterületspecifikus adatfeldolgozási és elemzési folyamatok követelményvezérelt szintézise

OData támogatás
Konzulens:
Gönczy László
Méréstechnika és Információs Rendszerek Tanszék

Napjainkban egyre több az informatikától és a statisztikától korábban jórészt független szakma alkalmaz adatelemzést. Az adattárolás és feldolgozás fajlagos költségének csökkenésével egyre nagyobb mennyiségű és egyre nagyobb sokféleségű adaton végeznek elemzéseket, sokszor olyan szakemberek, akiknek fő szakterülete az adatminőség értékeléstől és javítástól igen messze esik. Mindeközben a heterogén forrásból származó, jellemzően tisztítatlan adatok által jelentett kockázatok jelentősége nem csökkent. A feldolgozási és elemzési folyamat érzékeny lehet a bemeneti adatok hibáira, valamint a szakértői feltételezések ellenőrzését is igényli. Ezt a feladatot nehezíti, hogy az adatok szerkezete és adott esetben az adatok forrása is időben változhat.

Az adatok rendszerezése, tisztítása és elemzése ma már gyakran adatelemző munkafolyamatok segítségével történik, melyek kezelését grafikus eszközök (pl. RapidMiner, Knime) támogatják az adatelemzésben kevésbé jártas felhasználóknak is.

Amennyiben a feldolgozás/adattisztítás lépései során nem sikerül kiküszöbölni az összes adathibát, akkor ezek torzíthatják az adatelemzési lépések (pl. interaktív vizuális analízis, statisztikai módszerek) kimenetét. Ugyanakkor ezek a hibák sokszor kivédhetők további adattisztító és konzisztencia-ellenőrző lépések beiktatásával, amelyek megakadályozhatják a hibás értékek továbbterjedését az adathibákra érzékeny lépésekig.

A dolgozat keretein belül megterveztem egy ontológia alapú metamodellt, mely általános adatfeldolgozó folyamatokat ír le. Létrehoztam reprezentatív példa adattisztító és adatelemző folyamatokat egy erre alkalmas grafikus eszközben (RapidMiner) és biztosítottam a folyamatokból (ontológia alapú) példánymodellek generálását. Lehetővé tettem az adatelemző folyamatok bemeneti adataira vonatkozó követelmények definiálását és kiértékelésének támogatását. A téma szakirodalmának tanulmányozása alapján megalkottam egy adathibákat leíró taxonómiát. Az adathibák terjedését leíró szabályokat definiáltam az adatfeldolgozási, -tisztítási és -elemzési folyamatok különböző típusú lépéseire, és megvizsgáltam, hogy mely lépés mely adathibákra érzékeny és hogyan tehető robusztussá. Példát adtam arra, hogy a vizsgált környezet modelljének ismerete hogyan segítheti az adatok konzisztencia- és teljsségellenőrzését.

Módszerembe belekapcsoltam egy hibaterjedés alapú eszközt, ami a fenti folyamatokból automatikusan komponens alapú hibaterjedési modelleket állít elő. A generált modellen korlátkielégítési programozás alapú hibaterjedés vizsgálatot hajt végre, és képes felderíteni a lehetséges hibaokokat és jelenségeket a folyamatban, visszavezetve ezeket az eredeti modell szintjére. Ezzel az elkészült rendszer képes rámutatni a folyamat azon lépéseire, ahol további ellenőrzésekre vagy adattisztításra van szükség.

A dolgozatban egy összetett felhő alapú alkalmazás teljesítmény és szolgáltatásbiztonsági mérési adatainak feldolgozásán és kezdeti elemzésén keresztül mutatom be a módszer gyakorlati alkalmazhatóságát.

Eredményeim közvetlenül segíthetik adatelemzési projektek hatékony tervezését azáltal,

hogy a módszer szisztematikus módon javaslatot tesz bemeneti adatok és a köztes számítások

hibáinak kiszűrésére a mért rendszer modelljének figyelembevételével. Ezzel időigényes

és szakértői tudást igénylő munkát váltok ki és segítem, hogy az elemző a lényegi problémák

felderítésére koncentráljon. A megközelítés független az analízis során használt eszközöktől.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.