Visszacsatolt neuronhálók alkalmazása gépi beszédfelismerésben

OData támogatás
Konzulens:
Dr. Mihajlik Péter
Távközlési és Médiainformatikai Tanszék

Az automatikus beszédfelismerés (ASR) egy olyan terület, amely több mint 50 év folyamatos fejlesztést tud magad után. A széles technológiai fegyverarzenál továbbra is csak bővül: a legújabb tagja a rekurrens neurális hálók.

A diplomatervem célja az ASR legfrissebb áttöréseinek magyar corpuson való felhasználása volt. A célom az volt, hogy egy rám hagyott magyar rendszeren javítsak azáltal, hogy az abban levő előrecsatolt neuronhálót egy rekurrens neurális hálóra cseréljem ki.

A diplomaterv keretében megállapítottam, hogy a klasszikus rendszeren felül egy TDNN-LSTM architektúra bevezetésével javítani tudunk a szó-hiba-arányunkon (WER) mintegy 3,32%-ot (az eredeti előrecsatolt neuronhálónkhoz képest). Továbbá, ez nem növeli meg különösebben a rendszer tanításához szükséges időt, sőt, az új rendszerünk némileg gyorsabban is tud dekódolni, mint a régi.

Mivel a klasszikus rendszerünk befolyásolja a neurális hálónk végső teljesítményét, hiperparaméter kereséseket hajtottam végre annak érdekében, hogy megállapítsam a klasszikus rendszer optimális paramétereit, melynek eredményei megerősítették azt, hogy a Kaldi receptek alapértelmezett értékei optimálisak voltak. További hiperparaméter keresésekkel a rekurrens neurális hálón kimutattam, hogy az optimális méret egy kisebb, mintegy 192 neuron rétegenként, szemben a nemzetközi szakirodalomban talált nagyobb értékekkel. Ennek az oka a kisebb rendelkezésre álló, magyar nyelvű tanítóhalmaz. Megmutattam tehát, hogy még egy kisebb tanítóhalmazzal is szignifikáns javulás érhető el a rekurrens neurális hálók bevezetésével.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.