Mély neuronhálók alkalmazása a beszédfelismerésben

OData támogatás
Konzulens:
Dr. Mihajlik Péter
Távközlési és Médiainformatikai Tanszék

A szakdolgozatom keretében mesterséges neurális hálózattal oldottam meg egy klasszikus beszéd-felismerési problémát, a fonémaklasszifikációt. Nagy hangsúlyt kapott, hogy milyen hatása van a neurális hálózat alakjának az osztályozás pontosságára. Röviden bemutatom a beszédfelismerés alapjait, és ismertetem a MLP (többrétegű) neurális hálózatok felépítését, alapelvét.

A dolgozatban szereplő teszteket két beszédadatbázissal, egy angol és egy magyar nyelvűvel is végre hajtottam. A korpuszok feldolgozásánál a HTK, azaz Cambride-i Hidden Markov Model Toolkit által definiált fájlstruktúrákat használtam köztes formátumként az adatbázisok és a neurális hálózat között.

Annak érdekében, hogy összehasonlíthatók legyenek az eredményeim a hagyományos technikáéval, referenciaként GMM-el, azaz Gaussian Mixture Model-el is végrehajtottam a fonémaosztályozást.

A különféle neuronhálós megközelítésekkel végzett, valamint a referencia kísérleteket MATLAB-os környezetben végeztem, mind a tanítást, mind a tesztelést. A rendszer tanításához, lehetőségeimhez mérten, a feladathoz legjobban illő tanító algoritmust használtam, ennek megfelelő kiválasztása érdekében teszteltem az összes rendelkezésre álló tanító algoritmust. A gyakorlati megvalósíthatóság érdekében a futási időket is figyelembe vettem.

A tesztek eredményeit kiértékeltem a hagyományos módszerhez viszonyítva. Vizsgáltam a neurális hálózat alakjának hatását az osztályozási pontosságra és a tanítási időre. Végül sikerült egy érdekes összefüggést találnom a rejtett réteg mélységének és a tanító halmaz nagyságának kapcsolatáról.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.