Eredményeik felülvizsgálatára képes adatbányászati osztályozó eljárások

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

A technológia fejlődésének köszönhetően egyre nagyobb mennyiségű adat gyűjtésére és tárolására van lehetőség manapság. Ezen adatok mélyén azonban sokkal több információ lapul, mint gondolnánk. A kinyerésükre mára önálló tudományág jött létre, az adatbányászat. Feladata, hogy különböző tanuló algoritmusokkal új, nem triviális és hasznos összefüggéseket keressen az adatokban. Az ezekkel készített modellek azonban nem tökéletesek, néha pontatlanok, ha változnak az adatok elavulhatnak, ezzel megnehezítve a használatukat.

A diplomatervben bemutatok néhány kutatási területet, melyek kapcsolódnak a fent említett problémákhoz, továbbá négy általam kitalált módszert, melyekkel növelhető a modellek pontossága és bizonyos esetekben képesek felismerni, ha egy modell téves előrejelzést ad a célváltozóra.

A módszerek közül kettő egy külső operátorra is épít, akinek az a feladata, hogy a megjelölt entitások esetében felülvizsgálja a modellek döntéseit. A másik két módszernél nincs operátor, azoknál külső segítség nélkül történik azon entitások kiválasztása, ahol az eredeti modell hibás döntést hozott, illetve lehetőség van a prediktált érték automatikus javítására is.

Az ismertetett módszereket SAS-ban és RapidMiner-ben implementáltam. Összehasonlításukra előkészítettem öt referencia adathalmazt, melyek különböző területről származó valós adatokat tartalmaznak, és amiken látni lehet majd, hogyan viselkednek az adott környezetben a módszerek.

A dolgozat végén összehasonlítottam az egyes módszerekkel elért eredményeket, melyből kiderült, hogy nem mindig ugyan az a módszer a legjobb, hanem adathalmaztól függően más-más eredmények születtek. Ebből következik, hogy mindegyik módszernek van létjogosultsága feladattól függően.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.