Szemantikus videó indexelés és szegmentáció

OData támogatás
Konzulens:
Dr. Szűcs Gábor
Távközlési és Médiainformatikai Tanszék

Jelen munka célja egy előremutató, multimodális videofeldolgozó rendszer bemutatása, és az elkészült rendszer működési részleteinek megismertetése. Az általam elkészített megoldás képes arra, hogy automatikusan videókat bontson fel logikailag jól meghatározott szegmensekre, jelenetekre a képi világ, és a hangsáv együttes felhasználásával, így kihasználva a video-folyamok multimodalitását. Ezen túl a rendszerbe kép alapú keresés is implementálásra került, amivel a felhasználó bizonyos előforduló mozzanatokat találhat meg a feldolgozott videókban.

A dokumentum első felében felvázolom a kép- és videó feldolgozás alapkérdéseit, fogalmait, és néhány jelenleg használt közismert megoldást. Ezután elméleti áttekintés keretében bemutatásra kerülnek a videók rendszerezésének különböző szintjei, majd a modalitások jelentése és használata. Az áttekintés végén bemutatom, hogy videók esetében milyen módon tárolódnak az azokat leíró különböző adatok, és milyen technikákkal lehet azokat kinyerni.

A munka következő, központi részében bemutatom az elkészített rendszer technikai részleteit. Először a képi világ feldolgozását ismertetem, majd bevezetem a feldolgozás alapját jelentő, videókból kinyert forrásadatokat. A következőkben felállítom a jelenet-szegmentálást megvalósító modellt, és annak tanítási, kiértékelési módját. Ezek után kitérek a hang alapú szegmentálás technikai megvalósítására, és a két modalitás együttes használatára. Végül felvázolom a videók indexelésének, és az azokban való kép-kereshetőségnek módszertanát, és a keresés találati pontosságának mérésére általam megalkotott mérőszámot.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.