Fisher vektor alapú képi klasszifikáció

OData támogatás
Konzulens:
Dr. Wiener Gábor
Számítástudományi és Információelméleti Tanszék

Vizuális tartalmak osztályozása egyike azon képfeldolgozási és gépi tanulási feladatoknak, melyek nem mesterséges körülmények között nehéz problémának tekinthetőek. A téma jelentőségét mutatja a sok kutatási eredmény mellett, hogy az elmúlt évek során számos ipari alkalmazás készült pár éve még kísérleti algoritmusok felhasználásával (akadály detekció autókon, orvosi képi segítő diagnosztikai eszközök, arcfelismerés, infra kamerás hazugságvizsgálat stb.). Természetes fotók esetében az emberi agy általában könnyen megállapítja, hogy a képre jellemző-e valamely tulajdonság, legyen az objektum vagy egy általános fogalom. (tél, nyaraló emberek, vidám pillanat stb.) Azonban ezen objektumok, fogalmak vizuális változatossága miatt a ma ismert algoritmusok számításigényük ellenére is igen nagy szórással hibáznak. Sok százezer kategória megfelelő pontosságú felismerése rengeteg gyakorlati alkalmazásra adna lehetőséget (például pontosabb, tartalom alapú képkeresés, digitális állathatározó, esemény és környezet felismerése állóképeken, romlott ételek detektálása stb.), épp ezért az utóbbi években növekvő érdeklődés kíséri a képi klasszifikáció kutatást. Mivel a feladat pontosan meghatározott, így egy-egy megoldás adott körülmények között összehasonlítható más algoritmusokkal. Több rangos képi klasszifikációs versenyt is rendeznek immár több mint 5 éve (pl. Pascal VOC, ImageCLEF Photo Annotation).

A versenyeken elért eredmények is mutatják, hogy az elmúlt néhány év során a képi klasszifikációs eljárások terén komoly előrelépések történtek. Ennek oka az általános számítási kapacitás megnövekedése mellett a képi low-level leírók majd pedig a bag-of-words módszerek fejlődése. Diplomatervemben bemutatom a state-of-the-art rendszerekben alkalmazott technikákat, mind az alacsony szintű leírók terén, mind pedig a magas szintű, szemantikai leírók terén (például a Gaussian Mixture Model alapú Fisher-vektor, vagy a K-means alapú Super-Vector).

Az egyes alapmódszerek a különböző kategóriákban más-más eredményeket szolgáltatnak, célszerű előnyeiket ötvözni. Dolgozatomban ehhez is javaslok egy módszert, amelyben egy egyesített kernel mátrixot készítünk a különböző szemantikai leírókból. Ez az általános megközelítés lehetőséget nyújt arra, hogy tetszőleges modalitásból származó információkat kombináljunk, az egyes kategóriákra optimális módon. A módszer értékeléséhez szükséges a képi klasszifikációban alkalmazott új technikák implementációja is. A megvalósított rendszerünket a Pascal VOC 2011 verseny adathalmazán tesztelem.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.