Információelméleti módszerek adatbányászati alkalmazása bayesi megközelítésben

OData támogatás
Konzulens:
Dr. Hullám Gábor István
Méréstechnika és Információs Rendszerek Tanszék

Az adatbányászat a szoftveripar egyik dinamikusan fejlődő területe. Alkalmazási területei a telekommunikációtól az automatizáláson keresztül az orvosi informatikáig terjednek. Minden területen egy a célja: a mért, nagyméretű adathalmazok változói között eddig ismeretlen kapcsolatait feltárni. A feltárás során sok féle metrika rendelkezése áll a kapcsolatok minőségi jellemzésére. Az egyik ilyen potenciális mérce az információelméletből vett kölcsönös információ.

A kölcsönös információ egy szimmetrikus metrika, mely – ahogy a neve is mutatja – változók együttes eloszlása alapján képes a két változó kölcsönös információtartalmát megadni. A számolása, mint a hasonló metrikáké általában erősen függ az adott halmaz méretétől – kis mintaszám esetén jelentősen torzíthat.

Ennek orvoslására lehet alkalmas a bayesi jellegű megközelítés, melynek lényege, hogy a keresett paramétert változóként fogjuk fel, míg az adatokat adottként.

Ennek a megközelítésnek a vizsgálatát mutatom be a dolgozatban egy Java nyelven implementált algoritmuson keresztül, mely bayesi megközelítésben vett kölcsönös információs eloszlást számol. Az algoritmus által számolt értékeket pedig letesztelem generált adathalmazokon való struktúra tanulás alkalmazásán keresztül.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.