Adatreprezentáció multimédia osztályozás előkészítéséhez felügyelet nélküli tanulással

OData támogatás
Konzulens:
Dr. Szűcs Gábor
Távközlési és Médiainformatikai Tanszék

Ez a dolgozat különböző multimédiás tartalmakból előállított adathalmazokon végezhető dimenziócsökkentő eljárásokat tárgyalja. A munkám során a dimenziócsökkentés célja a sokdimenziós adatállományok jellemzőinek redukálása volt, ezáltal segítve az osztályozás előkészítését (osztályozási pontosság növekedés érdekében egy adott lineáris osztályozót feltételezve).

A redukciós műveleteket az SPSS Clementine 12 és Weka 3.6 szoftverekkel végeztem el. Az eredmények összehasonlítására az Area under the Learning Curve metrikáját használtam, ami a ROC-görbe alatti területet veszi alapul. A feladat tesztelésére az Unsupervised and Transfer Learning Challenge valós életből származó adatait vettem alapul. Felhasználtam kézírás felismerésre, szövegfeldolgozásra, videó feldolgozására, ökológiai alkalmazásra és képfelismerésre szolgáló állományokat, melyek közül a legkisebb 100, míg a legnagyobb 47236 jellemzőből állt.

A dimenziók csökkentésére főként a faktoranalízis különböző extrakciós módszereivel dolgoztam, felmérve, hogy a különböző tulajdonságú adathalmazokon milyen hatékonysággal alkalmazhatóak. Elemeztem ezenkívül a normalizációs műveletek és a csupa nulla értéket tartalmazó jellemzők kivonásának hatását is.

Dolgozatom áttekintést nyújt a redukciós műveletekről és bemutatja az általuk elérhető eredményeket és azok hiányosságait egyaránt, illetve, hogy mennyire hasznos és szükséges adataink megfelelő előkészítése a mai világban, ahol naponta több milliárdnyi bitből kell kinyernünk a számunkra fontos információkat.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.