Beszéd-nem beszéd detektálás prozódiai jellemzők alapján

OData támogatás
Konzulens:
Dr. Szaszák György József
Távközlési és Médiainformatikai Tanszék

Munkám során a beszéd-nem beszéddetektálással (Voice Activity Detection, a továbbiakban VAD) ismerkedtem meg. A VAD egy olyan eszköz, mellyel képesek vagyunk a beszédet a zajtól, illetve nem beszédet tartalmazó részektől szétválasztani. Alkalmazzák különböző beszédkommunikációs rendszerekben, mint a beszédkódolásban, a beszéd felismerésben, a mobil kommunikációs szolgáltatásokban, a valós idejű beszéd átvitelre Interneten keresztül. Habár a létező VAD algoritmusokat megbízhatónak mondjuk, fontos megállapítanunk, hogy megbízhatóságuk nagymértékben a függ a környezeti zajok mértékétől. A zajtűrés növelésének egyik lehetséges módja olyan beszédjellemzők – például prozódiai jellemzők – használata, amelyek a zajos beszédjelben is biztosabban követhetők maradnak. Munkám során ennek megvalósításával foglalkozom.

Első lépésben a VAD részletes tanulmányozásával kezdtem a munkámat. Ezután tértem rá a prozódiajellemzők használatára. A beszéddetektálást két program segítségével hajtottam végre. Az egyik az MKBF, mely a tanszék saját fejlesztésű programja (Windows alapú). A másik a HTK, melynek a Linux-os változatát használtam a beszéddetektáláshoz.

A VAD legegyszerűbb formájában a kis (meghatározott küszöb alatti) jelszinthez tartozó értékekhez nem-beszédet detektál, míg a nagy jelszinthez beszédet rendel. A zajtűrés a megbízhatóbb működés érdekében az alapalgoritmust számos módon és formában vizsgálták már, prozódia alapján azonban viszonylag kevés próbálkozás történt. Mint említettem, unkámban ez utóbbi változatot fogom vizsgálni. Ennek megvalósításához szükségem volt a VAD részletesebb tanulmányozására. Ennek részletes áttekintése az elméleti bevezetőben található.

A feladatom második felében a HTK program segítségével valósítom meg a VAD-ot. Első esetben prozódiával, majd prozódiai jellemzők nélkül és harmadik esetben energia és prozódiai jellemzők nélkül történik a megvalósítás.

A megvalósított algoritmusokat teszteltem és összehasonlítottam az eredeti algoritmusok teljesítményével. Munkám végső fázisban az egyes VAD-ok összehasonlításán keresztül az eredményeket kiértékelem és egy továbbfejlesztési irányt javaslok.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.