Klaszterezés alapú osztályozás minimális címkézett adatszükséglettel

OData támogatás
Konzulens:
Dr. Szűcs Gábor
Távközlési és Médiainformatikai Tanszék

Számos valós adatbányászati feladat esetén a címkézett példányok előállítása nehezen kivitelezhető. Az előállítási folyamat költséges, időigényes lehet, vagy előfordulhat, hogy az adatok nem hozzáférhetők. Ezért csupán egy kisméretű címkézett adathalmaz áll rendelkezésre. A kevés címkézett példánynak köszönhetően a felügyelt osztályozó eljárások csupán egy kisméretű tanulóhalmaz alapján tudnak általánosítani, amely jelentősen rontja az osztályozás jóságát. A félig felügyelt tanulási technikák abban különböznek a felügyelt megközelítésektől, hogy a címkézett adathalmaz mellett címkézetlen példányokból is tanulnak. A klaszterezés alapú osztályozás egy olyan félig felügyelt tanulási technika, amely első lépésben a címkézett példányok alapján klaszterezi mind a címkézett, mind a címkézetlen adatokat, majd ezt követően osztályozó lépést hajt végre. Az aktív tanulás módszere azt vizsgálja, hogy az egyes tanuló algoritmusok nagyobb osztályozási pontosságot tudnak-e elérni kevesebb címkézett adattal, ha megválaszthatják, hogy mely példányokból tanuljanak. A szakdolgozat célja a klaszterezés alapú osztályozás és az aktív tanulás együttes vizsgálata volt, mivel a két technika ugyanazt a problémakört tárgyalja, csak más megközelítésből. Ehhez megterveztem, és megvalósítottam egy aktív tanulásos klaszterezés alapú osztályozó rendszert, és annak működését egy konkrét adathalmazon teszteltem. A módszerem szerint, ha a címkézett tanulóadatok előállítása nehezen kivitelezhető, akkor a megoldás olyan félig felügyelt osztályozás alkalmazása, amely során kevés, ám az osztályozónak jól megfelelő példány kerül felcímkézésre. A kapott eredményeket összehasonlítottam a felügyelt tanulás és a klaszterezés alapú osztályozás eredményeivel. Az implementált módszeremmel keletkezett megtakarításokat és többletbevételeket költség-haszon elemzés segítségével mutattam ki.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.