Inkrementális anonimizálás Azure környezetben

OData támogatás
Konzulens:
Dr. Dudás Ákos
Automatizálási és Alkalmazott Informatikai Tanszék

Felhasználói és ügyfél adatok személyiségi jogok tekintetében érzékeny adatok. Amíg egy zárt rendszerben tároljuk az adatokat, az adatkezelő (aki az adatokat rögzítette), szabadon hozzáférhet az ügyfél azonosítására alkalmas információkhoz (pl. név, cím). Ha azonban az adatokat harmadik félnek szeretnénk átadni (például elemzés céljából), az adatokat anonimizálni szükséges. Az anonimizálás lényege, hogy érzékeny adatok ne kerüljenek átadásra harmadik félnek.

A probléma kifejezetten fontos big data környezetben, ahol a nagy adatmennyiség miatt kihívást jelent úgy anonimizálni, hogy a teljes adathalmaz soha nem érhető el egészében (mert az adatok folyamatosan, streamelve érkeznek, vagy a mennyiségük olyan nagy, hogy a teljes beolvasás nem megoldható). A feladat gyakorlatban is használható megoldást nyújtani Azure platformon az anonimizálás feladatára úgy, hogy a teljes adathalmazhoz az algoritmus nem fér hozzá, azt darabokban, inkrementálisan dolgozza fel.

A dolgozatom elején részletesen kitérek arra, hogy miért is van szükség anonimizálásra, ezt konkrét esettanulmánnyal szemléltetve, illetve bemutatom az anonimizálás elméleti alapjait is (többek között: k-anonimitás, l-diverzitás, t-közelség), továbbá egy rövid betekintést adok az Azure-ról.

A célom egy olyan model/szoftver megírásának legfontosabb szempontja az volt, hogy könnyen testre szabható / konfigurálható legyen, vagyis bármilyen adathalmazzal dolgozni tudjon, optimális teljesítményt nyújtson, képes legyen az adatok inkrementális anonimizálására, illetve a lehető legkevésbé torzítsa az adathalmazt, hogy az a legkevésbé torzítsa az elemzéseket, amik az anonimizált adathalmazból készülnek.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.