A logisztikus regresszió genetikus algoritmussal történő optimalizálása SAS környezetben

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

A napjainkban egyre gyorsabb ütemben halmozódó adatok mélyén üzletileg hasznos információk rejtőznek, melyeknek kinyerése az adatbányászat feladata. Egy vizsgált esemény bekövetkezési valószínűségének becslésére gyakran alkalmazott eljárás a logisztikus regresszió. Ez további változókat, ismert tulajdonságokat használ fel.

A felhasznált adatok alapos elemzése és előfeldolgozása nagymértékben hozzájárulhat a modell hatékonyságához. Gyakran alkalmazott előfeldolgozási lépés a folytonos változók diszkretizálása, más néven binnelése. Ilyenkor a változók értéktartományát diszkrét intervallumokra, kategóriákra bontjuk fel. Ez nem csak az értelmezést könnyíti meg, hanem a modell becslését is pontosíthatja.

A diszkretizálási probléma megoldására számos módszer ismert. A diplomaterv témája a diszkretizálási feladat genetikus algoritmussal történő megközelítése volt. A rendkívül robosztus, genetikus elveken működő algoritmusok akkor kerülnek előtérbe, amikor a keresési tér nagysága és a feladat komplexitása miatt megelégszünk egy optimálishoz közeli megoldással. A diszkretizálás tipikusan ilyen feladat.

Ezen dolgozat a kapcsolódó területek ismertetésén túl ajánlást tesz egy konkrét diszkretizálási algoritmusra, amely genetikus alapelvekre épül. Ismertetem az algoritmus részleteit, az egyes döntések okait.

Az algoritmust implementáltam SAS környezetben, és számos tesztet végeztem el rajta. Ismertetem a tesztelési módszereket, a vizsgált szempontokat és a tapasztalt jelenségeket. A mérések alapján az algoritmus megfelel a tervezés alapján elvárt követelményeknek. Tolerálható időn belül egy megfelelő minőségű, használható változó felosztást ad eredményül, amely mérhető módon javítja a logisztikus regresszió becslési pontosságát. Az algoritmus vizsgálata során felmerültek további fejlesztési lehetőségek, amelyek még hatékonyabbá tehetik a diszkretizálási eljárást.

A kész program tetszőleges adathalmazon hatékonyan alkalmazható változók binnelésére. A mérések tapasztalatai alapján készítettem egy ajánlást az egyes paraméterek praktikus beállítására vonatkozóan.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.