Klaszterezési eljárások bag-of-words modellezéséhez

OData támogatás
Konzulens:
Dr. Wiener Gábor
Számítástudományi és Információelméleti Tanszék

Mind szöveges mind képi dokumentumokból álló adatbázisok jelenleg leghatékonyabb keresőmotorjai úgynevezett "bag-of-words" módszerekre épülnek. Ezen generatív modell felépítését egy felügyelet nélküli klaszterezési eljárás előzi meg. A dokumentumokat szavak , képek esetében lokális alacsony szintű leírók halmazaként értelmezzük. Önmagában egy ilyen leíró /szó csak meglehetősen kevés információt hordoz, így szemantikus értelmet nem igazán kapcsolhatunk hozzájuk, viszont egy előre meghatározott klaszterezés segítségével kijelenthetjük, hogy ezen elem mely más elemekhez hasonlóan viselkedik. Feltételezésünk szerint sok ilyen hasonló részlet magasabb szinten valószínűleg egy hasonló téma/ képi objektum tartalmazását jelenti.

Vizsgálataim három különböző "bag-of-words" módszerre terjednek ki. A k-means alapú Vektor Kvantálás, a PLSA(probabilistic latent semantic analysis) illetve a GMM(Gaussian mixture models) alapú Fisher vektor módszerek összehasonlítását egy már létező képi klasszifikációs rendszer segítségével fogom elvégezni, beillesztve saját módszereimet.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.