Adattisztítási algoritmusok továbbfejlesztése

OData támogatás
Konzulens:
Dr. Szikora Béla
Elektronikai Technológia Tanszék

A minőségi adat potenciális versenyelőnye egy cégnek. Az ehhez vezető, olykor hosszan elnyúló folyamat egyik része az adatok tisztaságának visszamenőleges megteremtése. Az adatok típusa szerint különböző eljárásmódok szükségesek a munka hatékony elvégzéséhez.

A dolgozat készítése során törekedtem olyan eljárások kidolgozására és bemutatására, amelyek célravezetően alkalmazhatóak az alábbi adattisztítási problémák megoldására: cégnevek, személynevek, címek helyessége, rekordok közötti duplikátumok kiszűrése. Ehhez elengedhetetlen a tipikus adatminőségi problémák, illetve a kivédésükre széles körben alkalmazott, alapvető adattisztítási eljárások ismerete.

A témakörök (cégnevek tisztítása; személynevek és a hozzájuk szorosan nem kapcsolható egyéb elemek javítása; az egyesült királyságbeli és németországi címek alapvető tisztítása; illetve a részegyezéseken alapuló duplikátumkeresés) behatóbb vizsgálatát követően kerülhetett sor a PL/SQL nyelven írt algoritmus elkészítésére, majd a működés ellenőrzésének céljából reprezentatív mintán végzett tesztelésére.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.