Python alapú adatbányászati eljárások integrálása RapidMiner-be

OData támogatás
Konzulens:
Nagy Gábor
Távközlési és Médiainformatikai Tanszék

Az adatbányászat területén alkalmazott két rendkívül széles körben használt

technológia közül az egyik a RapidMiner szoftver, mely az adatbányászati funkcióit

tekintve világvezető nyílt forráskódú rendszer, a másik a Python, egy általános célú

magas szintű programozási nyelv, mely ugyancsak széleskörű adatbányászati

moduljainak köszönhetően egy gyakran használt eszköz az adatok elemzésekor. A

feladatom e két rendszer erősségének kombinálása volt, ezáltal új adatbányászati

funkciókat nyújtva a RapidMinert használó adatelemző specialistáknak. A munkám

során egy közös interfészt kellett találnom, mely egyfajta hidat képez a RapidMiner és

Python között, ezáltal a RapidMiner képes arra, hogy a gyakran használt, megbízható

python modulokat integráljon az adatbányászati folyamatokba.

A munkám részben a megfelelő technológia megtalálása volt, mely képes arra,

hogy a két rendszer közötti kölcsönös kommunikációt megvalósítsa. A RapidMiner

operátor fejlesztéséhez a Java programozási nyelvet, míg a kommunikációban résztvevő

python objektumok létrehozásához a Python programozási nyelvet használtam. A

munkám során fejlesztés kísérleti jellegéből fakadóan illetve az eredmények publikálása

céljából számos alkalommal folytattam levelezést a RapidMiner és egyéb projektek

fejlesztői csapatával. A fejlesztés során kihasználtam a RapidMiner által biztosított nyílt

forráskód adta előnyöket, valamint egy másik nyílt forráskódú projekt, a Pyrolite

funkcióit, továbbá nagyban építettem a mások által korábban implementált gépi tanulást

megvalósító python könyvtárra, nevezetesen a scikit-learn-re. A munkám

eredményeként a RapidMiner által nyújtott funkciók tovább bővültek, ezen kívül

további hiányzó funkciók implementálhatók, valamint köszönhetően a magas

teljesítményt nyújtó cpython könyvtáraknak a futási idő is csökkenthető. Mivel az

operátor és a dokumentáció nyilvánosan is elérhető lesz, így a projekt dokumentációja

értékes know-how-ként használható további, hasonló struktúrájú operátorok

készítéséhez, az elkészült operátor pedig egy hasznos bővítménye a RapidMiner eddigi

funkcióinak.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.