Adatbányászati keretrendszer és párhuzamos adatbányászati algoritmusok

OData támogatás
Konzulens:
Dr. Dudás Ákos
Automatizálási és Alkalmazott Informatikai Tanszék

John Naisbitt-tól származik az a meglehetõsen ismert idézet melyet Megatrends címû könyvében írt le:

"Fulladozunk az infromációban de ki vagyunk éhezve a tudásra".

A tartalma ezen gondolatnak ma már talán még nagyobb relevanciával bír, mint 1982-ben mikor is a szerzõ irományában megejtette azt.

Minthogy az adat, mint entitás szerepe az elmúlt évtizedekben megváltozott, az iparnak ezt a tényt el kell fogadnia és vele együtt kell változnia, az új

trendeket adaptálva ha képes akar maradni az állandóan változó piaccal a tempót tartani.

Betekintést nyerni óriási mennyiségû adatba (információ kinyerési célból) azonban nem egyszerû. Szofiszitikált algoritmusok és óriási számítási kapacítás igényelt adott esetben, ami ezen feladat elvégzését megnehezíti.

Jelen dolgozat bizonyos adatbányászati (és gépi tanulásra is alkalmas) algoritmusok parallelizációs lehetõségeit tanulmányozza egy projekten belül, melynek célja egy kisebb keretrendszer létrehozása és annak dinamikus bõvítésének lehetõvé tevése. A keretrendszer a .NET keretrendszeren belül készül és az abban készült könyvtárak befogadására lesz képes (további feltételek mellett). A tanulmányozott, igen népszerû algoritmusok is már ezen új rendszerbe illeszthetõ könyvtárakként jelennek majd meg.

Ezek a könyvtárak tartalmazzák ugyanannak a metódusoknak az egyszálú és többszálú változatát is, így prezentálva a már említett párhuzamosítási lehetõségek kihasználását és a többmaggal rendelkezõ processzorok, több processzoros rendszerek kihasználását.

Azon algoritmusokat, melyek masszív parallelizációra könnyen alkalmassá tehetõek voltak általános célú GPU-programozással is megközelítettük az NVIDIA által támogatott CUDA platform segítségével.

Az elõterjesztett keretrendszer ezenkívül lehetõséget ad arra is, hogy a felhasználó a kiválasztott algoritmust egy általa bevitt egyszerû adathalmazon is kipróbálhassa. Mindezt az algoritmusokhoz hasonlóan egy dinamikusan bõvíthetõ, tervezõi nézetek cserélgetését lehetõvé tevõ módon teszi meg.

Az algoritmusok validálását és helyességükrõl való megbizonyosodást online is elérhetõ adat-szettekkel és mesterségesen elõállított példákkal végeztük el.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.