Átfedő klaszterek keresése hasonlósági mátrix alapján

OData támogatás
Konzulens:
Dr. Katona Gyula
Számítástudományi és Információelméleti Tanszék

Alapvető adatbányászati feladat a klaszterezés. Ez egy olyan eljárás, ahol adatokat attribútumaik alapján homogén halmazokba sorolunk. Ennek módosított esete, amikor egy elem több halmazba is kerülhet, illetve a halmazba tartozás mértéke egy nulla és egy közötti szám hasonlóan, mint a fuzzy logikában. A klaszterezés alapja sokszor a távolságfüggvény, amely két elem különbözőségét számszerűsíti. Ezeket a távolságértékeket négyzetes formába rendezve kapjuk meg az elemek hasonlósági mátrixát.

A klaszterezés alkalmazási területei igen változatosak lehetnek. Az egyik általam vizsgált rész az áruházak adatbázisanak világa, ahol a feladat vásárlói magatartásminták azonosítása úgynevezett vásárlói kosarak alapján. Egy másik alkalmazási lehetőség, amit megnéztem a szerves molekulák klaszterezése. A gyógyszergyárak, kémiai kutatólaboratóriumok számára nagy segítség ha a molekulákat csoportokba tudják rendezni különféle kémiai tulajdonságaik alapján. Harmadszorra az ajánlórendszereket vizsgáltam. Itt a felhasználók értékelhetik a termékeket, ezeket az értékeléseket felhasználva készíthetünk ajánlattevő szoftvereket, amelyek képesek személyre szabott hirdetések, ajánlattételek előállítására.

Az általam kidolgozott klaszterezési eljárás lényege, hogy az elemek hasonlósági mátrixát egy kisebb mátrixszal közelítsük gradiens alapú kereső algoritmus segítésével. Az így kapott mátrix egyik dimenziója az elemek száma, a másik a klaszterek száma. A mátrix i,j eleme megmondja, hogy az i-edik elem milyen mértékben tartozik a j-edik klaszterba. Az így kapott átfedő, fuzzy klaszterezés alkalmas lehet vásárlói vagy értékelési viselkedésminták azonosítására, valamint könnyen átalakítható diszkrét klaszterezéssé így használható hagyományos klaszterezési feladatokra is.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.