Topológikus adatelemzés

OData támogatás
Konzulens:
Dr. Kósa Zsuzsanna Mária
Távközlési és Médiainformatikai Tanszék

Az adatok általában azért jelenítjük meg ábrákon, hogy szabályosságokat és új összefüggéseket tudjunk felfedezni benne. Ez alacsony dimenziós adatoknál könnyű, de nagyobb dimenziójú adathalmazokat már nem lehet direkt megjeleníteni. Különböző módszereket fejlesztettek ki ennek a problémának a megoldására, például a PCA, Isomap, és Laplacian Eigenmaps-eket. Ezek a magas dimenziójú adatokat beágyazzák egy alacsonyabb dimenziójú térben, úgy, hogy az megőrzi az eredeti struktúráját. Azonban ezek a módszerek mind feltételeznek valamilyen tulajdonságot, amivel az adat rendelkezik. A topologikus adatelemző módsz-ereknek is hasonló a célja (mint például a persistence homológiának, vagy Mapper algoritmusnak), de ezek kevesebb dolgot feltételeznek az adatokról. Ezek az algoritmusok alacsony dimenziós (általában két dimen-ziós) gráfokká alakítják az adatokat, a pontok közötti távolságok felhasználásával, és ezeket jelenítik meg, ezekből a diagramokból új belátást nyerhessünk az adat struktúrájára.

Két csoportba lehet bontani a diplomamunkámmal kapcsolatos céljaimat. Az első az volt, hogy megismer-jem, és megértsem a terület mögött álló elméleteket, és azokat a módszereket amikkel kiszámolják a leíró statisztikákat az adatokról. A másik, gyakorlati rész összetettebb volt. Először kiegészítő függvényeket írtam a népszerű R-es ggplot2 adatvizualizáció könyvtárhoz, hogy ezen keresztül is meg lehessen jeleníteni azokat a diagramokat amiket az R-ben található topologikus adatelemző csomag hoz létre (ezt a TDA-nak hívják). Ezután egy valós adathalmazon megnéztem, hogy a TDA algoritmusokkal tényleg lehet-e új belátást nyerni az adat struktúrájára.

Az elméleti részt azok szerint a matematikai területek mentén bontottam szét, amik alapul szolgálnak a topologikus módszereknek. A gyakorlati résznél, az első fejezetben ismertetem az R-ben található grafikus könyvtárak, és magát a ggplot2-t is, majd bemutatom a fejlesztési folyamatomat, és összehasonlítom az TDA csomag által, és az én függvényeim által előállított diagramokat. Ezután elemezni fogok egy valós adathalmazt hagyományos, és topologikus módszerekkel is, hogy megnézzem, hogy a topologikus módszerek tényleg tudnak-e új belátást nyitni az adatok struktúrájába. A dolgozatomat a tapasztalataim ismertetésével fejezem be.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.