Beszédfelismerésen alapuló vezérlő fejlesztése

OData támogatás
Konzulens:
Dr. Berényi Richárd
Elektronikai Technológia Tanszék

Feladatom az volt, hogy fejlesszek egy beszédfelismerésen alapuló vezérlő rendszert. A szakdolgozat a témakiírásnak megfelelően 5 fő fejezetből áll.

A 3. fejezet betekintést nyújt a beszédfelismerés elméleti hátterébe, olyan technológiákról szól, melyek lehetővé teszik az emberi beszéd számítógép vagy beágyazott rendszer általi felismerését. A felismert szavak két célt szolgálhatnak: diktált anyagok szöveggé konvertálását, folyamatos beszédfelismeréssel (CSR), vagy egy-egy izolált szót figyelnek, melyekkel vezérlési funkciók valósíthatók meg (IWR). A felismerési technológiákat csoportosíthatjuk a szerint is, hogy mekkora hangsúlyt fektetünk a beszélő személyére. A beszélő személyétől független (SI) felismerési rendszerek rendkívül rugalmasak, ezért sokrétűen alkalmazhatók. A beszélő személyétől függő (SD) beszédfelismerés már sokkal kötöttebb, ezért többnyire hangaláírás formájában, biometrikus azonosítóként használják.

A dolgozat a hangsúlyt az SI felismerést alkalmazó vezérlési rendszerekre fekteti, melyek megvalósítása elképzelhetetlen néhány matematika absztrakció és algoritmus előzetes ismerete nélkül. Ezek a rejtett Markov modell (HMM), a mesterséges neurális hálózatok (ANN), és a Viterbi algoritmus. Utóbbi kettőt a rejett Markov dekódolására használják.

A dolgozat 4. fejezete, olyan ötleteket vet fel, ahol a beszédfelismerést alkalmazható, mint vezérlési funkció.

Az 5. fejezet a piacon jelenlevő beszédfelismerő szoftverekről, és a beágyazott rendszeres beszédfelismerő modulokról, chipekről szól. A tárgyalt VR-Stamp és VoiceGP beszédfelismerő modulok, a Sensory cég RSC-4128-as beszédfelismerő processzorát használják.

A 6. fejezet, e két beszédfelismerő modul konkrét alkalmazásáról szól, arról, hogy használatukhoz milyen kiegészítő áramköri elemeke van szükség, és arról, hogy milyen szoftverek szükségesek a felprogramozásukhoz.

Az utolsó, 8. fejezet témája a működő VoiceGP beszédfelismerő rendszeren megvalósított konkrét alkalmazás. A projekt lényege, hogy a beszélő színeket, mond, és ennek hatására a fejlesztő board-on a megfelelő színű LED világít. Emellett soros porton a számítógéphez illesztve kommunikál, ahol egy Python nyelven megírt program fogadja a vezérlésként érkező információkat.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.