Anonimitást megőrző adatbányászat

OData támogatás
Konzulens:
Dr. Szűcs Gábor
Távközlési és Médiainformatikai Tanszék

Ma már tudjuk, minden adatot érdemes megőrizni, hiszen minden adat hasznos információt rejthet, az adatokból kinyerhető tudás pedig hasznot hozhat, amennyiben okosan tudjuk kezelni őket. Ebből kifolyólag ma már rengeteg adat áll különböző cégek, szervezeti egységek rendelkezésére, a felhalmozott adatokon változatos adatbányászati feladatok értelmezhetőek, amelyek segítségével hasznos modellekhez juthatunk. A modellek eredményeinek kezelése és felhasználása azonban adatvédelmi korlátokba ütközhet így. Ezek közzététele az eredeti formájukban nem lehetséges, anonimizálásra van tehát szükség: a személyek adatainak anonimitásával kapcsolatos elvárások napjainkban aktuálissá váltak.

A diplomamunkám keretein belül bemutatom az adatok adattárházakban való tárolásának lehetőségeit, a szakirodalmakból megismert anonimizáló módszereket, ezek implementálását és tesztelését egy nyilvánosan elérhető adathalmazon. Az anonimizáló algoritmusok kombinálásával megterveztem és megvalósítottam egy saját módszert, mely a különböző algoritmusok előnyeit magában foglalja. Az osztályozó modellekhez rendelhető pontossági mérőszámok, illetve az anonimitás mértéke alapján minősítettem a módszerek hatékonyságát. A kutatásaim, illetve az anonimitást megőrző adatbányászat központi kérdése az, hogy lehetséges-e pontos modellt építeni a személyes adatok védelme mellett, például adatok torzítása segítségével. Megmutattam, hogy anonimizált adathalmazokra is építhetőek olyan döntési fák, amelyek osztályozási pontossága nem romlik számottevően, azaz érdemes foglalkozni a rendelkezésre álló adatok torzításával az adatbányászati eredmények közzététele érdekében.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.