Nagyméretű adatbázis másolások folyamatát elemző keretrendszer tervezése és implementálása

OData támogatás
Konzulens:
Dr. Toka László
Távközlési és Médiainformatikai Tanszék

Az informatikai rendszerek felhasználói általában igénylik azt, hogy emberi léptékkel nézve viszonylag hosszan tartó folyamatokról, amikor az interaktivitás már elvész, kapjanak valamiféle információt a folyamat aktuális állapotáról és a várható befejezéséről.

A munkám célja egy olyan futásidő becslő rendszer létrehozása volt, mely egy minél gyorsabb kiértékelésű, de ugyanakkor viszonylag elfogadható pontosságú modellen alapszik. Ehhez adatbányászati módszereket alkalmaztam, a CRISP-DM módszertan szerint jártam el.

Először összegyűjtöttem az adatokat, majd az előállított adathalmaz tisztításával és több tanuló algoritmus kipróbálásával folyamatosan javítottam a modellt. Ehhez eleinte a Dataiku programot használtam, miután pedig bebizonyosodott, hogy a legfontosabb céljaimat ennek segítségével nem érem el, áttértem a Google Cloud Platform egyik termékére, a BigQuery-re.

A felhasználói felület és a Big Data eszköz kommunikációja Serverless architektúrán alapszik, ami napjainkban egy aktuális és igen népszerű megoldásnak számít. Ezt Google Cloud Function segítségével valósítottam meg. Így egy gyors, olcsó, jól skálázódó rendszert tudtam létrehozni, ahol a szerverek menedzselésével nem kellett foglalkoznom, elegendő volt a kódra koncentrálni.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.