Félig felügyelt tanulási módszerek megvalósítása RapidMiner környezetben

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

A félig felügyelt tanulásnak nagy szerepe van olyan adatbányászati feladatok megoldásában, ahol a rendelkezésünkre álló adatok osztályozó változója, más néven címkéje, az esetek csak kis részében ismert. A félig felügyelt tanulás során kihasználjuk az ismeretlen címkéjű adatpontokról lévő egyéb ismereteinket is. A szakirodalomban számos módszer található a feladat megoldására, de a manapság legelterjedtebb adatbányászati eszközök ezt a funkciót még nem tartalmazzák.

A munkám során irodalomkutatást végeztem a különböző félig felügyelt tanulási módszerek megismerésére, és kiválasztottam két eljárást, a Self-training-et és a Co-training-et. A két eljárást Java programozási nyelven valósítottam meg, és integráltam a RapidMiner nyílt forráskódú adatbányászati eszközbe.

A módszerek mérésére a RapidMiner validációs eljárásai nem voltak alkalmasak, ezért elkészítettem egy saját, félig felügyelt tanulási módszerek hatékonyságának vizsgálatára alkalmas keresztvalidációs eljárást. A két módszert ezután több, nyilvánosan hozzáférhető adathalmazon futtattam, és összemértem a hatékonyságukat egy alapmegoldással, ami nem használja ki a címkézetlen adatpontokról rendelkezésre álló adatokat.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.