Adatelemző szoftver fejlesztése kategóriás adatokra

OData támogatás
Konzulens:
Dr. Hosszú Gábor
Elektronikus Eszközök Tanszéke

Feladatom az volt, hogy egy kategorikus adatokra alkalmazható, matematikai statisztikai Matlab alapú szoftver hozzak létre.

Először is magát az adatelemzés és adatbányászat témakörét jártam körül, milyen alapvető adattípusok léteznek a mai informatikában, illetve ezeknek milyen altípusai és alkalmazási intervallumai vannak.

Ezek után a matematikai oldalát kutattam az adatelemzésnek, azaz milyen algoritmusokat és eljárásokat tudunk alkalmazni a kategóriás adatokra, természeten kvantitatív adatokra is kitérek egy rövid ideig. Körüljártam a diszkriminancia analízis, a klaszteranalízis és a kontingencia táblaelemzési eljárásokat.

Az általam kifejlesztett szoftver alapját a kontingencia tábla analízis adja. Elsősorban az a cél, hogy egy külső forrásból beadott vektorból létre lehessen hozni egy nxm-es kontingencia táblát az előforduló változó gyakoriságokkal. E táblából a khi-négyzet próba segítségével különböző tulajdonságú kapcsolatszorossági mérőszámokat tudunk kiszámolni (khi-négyzet együttható, Csuprov-T együttható, stb.). Ezen mérőszámok segítségével egy adott populáción belül illeszkedés vizsgálatot, vagy függetlenségi, illetve homogenitási hipotézis vizsgálatot tudunk lefutatni adott szignifikancia szint mellett. A mérőszámok mellett az applikáció valószínűséget, a tábla elemszámát és szabadsági fokát is megadja a felhasználónak. A felhasználói élmény növelése érdekében még olyan plusz funkciókat is beépíttetem a programkódba, amely segítségével, a khi-négyzet együttható kritikus értékét is ki lehet számítani (ez a hipotézis vizsgálat referenciapontjaként használható), illetve a vektorok jobb szemléltetése érdekében, a változók eloszlását egy háromdimenziós oszlopdiagramon lehessen reprezentálni.

A fentiekben leírt funkciókat úgy hoztam létre, hogy ne a Matlab matematikai felhasználó felületén kelljen használnia a felhasználónak, hanem egy feladatorientált grafikus felületen keresztül lehessen futatni az adatelemzést.

A kifejlesztett szoftvert hat darab általam generált reprezentatív vektor segítségével teszteltem, és egy általam kiválasztott internetes alkalmazás segítségével a teszt eredményeit összevetve meggyőződtem a szoftver helyes működéséről.

A piacon lévő, hasonló matematikai és statisztikai szoftverekkel összehasonlítva, bemutattam a továbbfejlesztés lehetséges útjait. Ezek segítségével egy sokcélú adatelemző szoftverré lehet fejleszteni a szakdolgozat keretében kifejlesztett szoftvert.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.