Megbeszélések hanganyagának tartalmi elemzése

OData támogatás
Konzulens:
Dr. Mihajlik Péter
Távközlési és Médiainformatikai Tanszék

A XX. század végére a strukturálatlan szöveges állományok mennyisége hatalmasra nőtt, a benne rejlő információk feldolgozására sokáig nem volt lehetőség. A szövegbányászat foglalkozik azokkal az elméleti és gyakorlati eszközökkel, melyek segítségével nagy mennyiségű szöveges tartalomból lehetséges információkat visszakeresni és kivonni.

Mára eljutottunk oda, hogy nem csak karakteres formában meglévő szöveges állományokon végezhetünk elemzéseket, hanem strukturálatlan hangállományból is képesek vagyunk információt visszakeresni vagy kivonni. Ehhez a szövegbányászati elemzések előtt szükséges a felvett hanganyagok szöveggé átalakítására gépi beszédfelismerés alkalmazásával.

Dolgozatom a beszédfelismerés és a szövegbányászat technológiájának az összefonódására épül, többféle beszédfelismert adathalmazon végzek majd szövegbányászati eljárásokat.

Dolgozatomat úgy építettem fel, hogy azoknak is adjak egy átfogó képet a szövegbányászatról, akik eddig még nem hallottak róla. A 3.1 fejezetben bemutatom a gépi beszédfelismerés folyamatát és a szövegbányászat azon alapfogalmait, melyek érthetővé teszik a dolgozatom további tartalmát. A 3.2 fejezetben röviden bemutatom a dolgozatomhoz használt IBM SPSS adatbányász szoftvert és Clementine Consulting által fejlesztett Clemtext 2.0 modult. A 4. fejezetben bemutatom a szövegbányászati eljárások folyamatát, kiemelten az információkinyerési és kivonatolási területekre koncentrálva. Az előfeldolgozás, valamint a szótárak felépítése után szófajfelismerési elemzéseket hajtok végre, majd pedig bemutatom a mintázatok létrehozásának és a kategóriák építésének lehetőségeit. Az 5. fejezetben különböző beszédfelismerési kimeneteket (utólagos gépi leirat, gyorsíró által leírt változat) hasonlítok össze a megbeszélések pontos leiratával felidézés és pontosság szempontjából.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.