A dolgozat alapvető témája az Anonimitást megőrző adatbányászati módszerek köré csoportosul. A munka első részében részletes irodalomkutatás található az anonimitásról és a privát adatok biztonságáról, a jelenleg ismert és alkalmazott anonimitást biztosító és megőrző adatbányászati alkalmazásokról. Az első két fejezetben átfogó bemutató található a problémáról és az anonimitás méréséről.
A harmadik fejezetben bemutatásra kerülnek először a randomizációval, valamint az adatok és adathozzáférés manipulációjával működő legfontosabb anonim adatokat védő perturbációs és nem perturbációs módszerek egyaránt. Szintén ebben a fejezetben található információ az anonim adatbányászati algoritmusok másik nagy családjáról a Secure Multiparty Computation-ről amely alapvetően az elosztott, adattorzítás nélküli többfelhasználós módszerek összefoglaló neve.
Saját feladatom kettős volt. A negyedik fejezetben részletesen elemeztem a különböző randomizációs módszerek hatékonyságát és anonimitás megőrző képességét. Mind az alkalmazott mérőszámok mind a módszerek megvalósítása részletes bemutatásra került, végül pedig az eredmények összegzése is itt történik meg.
A feladat második része adja a dolgozat javát. Az ötödiktől a hetedik fejezetig egy komplex adatbányászati problémát (klasszifikáció) kell megoldani egy horizontálisan elosztott adatbázison. A felhasználók száma előre ismeretlen, az anonimitás pedig abszolút megkövetelt. A fejezetekben bemutatásra kerül az alkalmazott teszt adatbázis, az általam épített SMC algoritmus, valamint a teljes feladattal megbirkózni képes moduláris SMC rendszer is. A kidolgozott algoritmus egy új megközelítés, amely a K-Means klaszterező algoritmust használja irányított tanulóalgoritmusként a klasszifikációs feladat végrehajtására.
A dolgozat végén összefoglaló és az eredmények ismertetése található.