Anonimizálás megvalósítása Spark használatával

OData támogatás
Konzulens:
Dr. Dudás Ákos
Automatizálási és Alkalmazott Informatikai Tanszék

Korunk technológiai fejlődései adatcentrikus rendszereket hoztak létre. Ez az jelenti, hogy az elérhető alkalmazások többsége adatokat gyűjt a felhasználókról akarva akaratlanul. Azzal a ténnyel, hogy személyes adataink vállalatok birtokába kerülnek, a társadalom többsége már együtt tudd élni. A probléma viszont akkor merül fel, amikor adataink egy harmadik fél számára is ki lesznek adva. Ekkor az adat tulajdonosának gondoskodnia kell arról, hogy az adatokat csupán anonimizált formában kerülhetnek ki a rendszerből. Ez azt jelenti, hogy alanyokról semmilyen személyes információt nem árulhatnak el a kiadott adatok.

Szakdolgozat készítésem során az adat anonimizálás témakörével foglalkozok. Bemutatom az anonimizálás területét és a k-anonimitás fogalmát. Implementálom A Mondrian anonimizáló algoritmust és foglalkozok az anonimizálás kihívásaival Big Data és Fast Data környezeteben.

Ezek mellett foglalkozok párhuzamosítás témakörével és tanulmányozok különböző párhuzamosítási technikákat. Az Apache Spark keretrendszer segítségével implementálom a Mondrian algoritmust, majd ennek előnyeit és hátrányait kiértékelem.

A szakdolgozat végeredményeként egy olyan anonimizáló rendszert szeretnék bemutatni, amely képes nagy adathalmazokon hatékony anonimizálást végrehajtani és ugyanakkor alkalmazható legyen folyamatosan beáramló adatok esetén is.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.