Anonimizálás big data környezetben

OData támogatás
Konzulens:
Dr. Dudás Ákos
Automatizálási és Alkalmazott Informatikai Tanszék

Egy olyan korban élünk, amikor minden egyes információmorzsának komoly értéke van, így az összes óriás technológiai cég megpróbál mindent megtenni annak érdekében, hogy minél több adatot gyűjtsön. Ez nem is probléma egészen addig, ameddig ezt az információt zárt körülmények között, csupán a cégen belül használják. Abban a pillanatban azonban, hogy ezt harmadik fél felé nyilvánosságra szeretnék hozni, biztosra kell menniük, hogy semmilyen érzékeny információt nem osztanak meg a felhasználóikról. És itt jön az anonimizálás a képbe.

Diplomadolgozatomban több anonimizálási technikát is megvizsgálok, majd pedig egy konkrét – Mondrian nevezetű – anonimizálási algoritmust meg is valósítok. Mivel általában nem áll rendelkezésünkre a teljes adatmennyiség (vagy mert túl nagy mennyiségről lenne szó, vagy mert folyamatosan érkező adatról van szó, melynek egy része majd csak a jövőben kerül a birtokunkba), ezért megvizsgálok két megközelítést is a folyamatosan érkező adatok anonimizálására.

Hogy megvizsgáljuk, mennyi információt veszítünk el a különböző módon elvégzett anonimizálások esetén, többfélre metrika alapján végzek méréseket az anonimizált adathalmazokon. Ezen metrikák közül néhány ebben a dokumentumban kerül definiálásra.

Végezetül, ennek a projektnek a végeredménye egy szoftvertermék, amit egyaránt használhatunk egy adathalmaz egyszeri feldolgozására és folyamatosan érkező adatok anonimizálására is, különböző beállítások használata mellett.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.