Személyes adatok visszafejtése gépi tanulással

OData támogatás
Konzulens:
Dr. Ács Gergely
Hálózati Rendszerek és Szolgáltatások Tanszék

Napjainkra a felhasználói adatok kezelését jelentős mértékben szabályozza az általános európai adatvédelmi rendelet (GDPR). A személyes adatok védelmének érdekében szigorú előírások vonatkoznak az adatkezelő intézményekre. A GDPR előírja az adatok megfelelő anonimizációját, ez azonban sok esetben bonyolult és költséges. Ennek következtében gyakran anonimnak vélt adatokból konkrét személyek adatai mégis visszafejthetők (de-anonimizálhatók).

Munkámban egy olyan de-anonimizációs támadást mutatok be, amellyel egy adathalmaz személyes jellegét lehet tesztelni. A visszafejtés során olyan adathalmazokat vizsgálok, amely sok attribútumot tartalmazó felhasználói rekordokból áll. Az eljárás adatfüggetlen módon, általánosan alkalmazható, vagyis a tesztelés során nem számít, hogy pontosan milyen adatokat tárol az adathalmaz. A felhasználói rekordok közti kapcsolatok elemzésére egy dokumentum-alapú távolságszámító módszert használok. A támadás egyik lényeges eleme az adatokban rejlő korrelációk meghatározása, mely neurális hálózat alapú gépi modell betanításával történik. A módszer jelentősége abban mutatkozik meg, hogy automatikusan állapítja meg ezeket az összefüggéseket, szemben a napjainkban alkalmazott manuális módszerekkel, melyek sok esetben bonyolultabbak.

A felépített de-anonimizációs modellt összevetettem egy már létező megoldással is, amely optimális hisztogrampárosítást tesz lehetővé olyan esetekben, ahol az attribútumok közti kapcsolat nem ismert. Az elért eredmények igazolták az implementált eljárás létjogosultságát, ugyanis a vizsgált esetek többségében pontosabb visszafejtést tett lehetővé, mint az általánosabb távolságmetrikával végrehajtott támadás.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.