Beszéd kiemelése zajból, mély neurális hálózatok használatával és idő-, illetve frekvenciatartománybeli elfedéssel

OData támogatás
Konzulens:
Dr. Vicsi Klára
Távközlési és Médiainformatikai Tanszék

Az egyik legnagyobb kihívást jelentő kutatási téma a beszédjel-feldolgozás területén, a zaj eltávolítása a zajos beszédből.

A munkám célja, hogy megvalósítsak egy olyan rendszert a zajcsökkentésre, ahol az idő- és frekvenciatartománybeli maszkolás becslésére mély neurális hálózatot használok.

Első lépésként létre hozok egy beszéd-adatbázist, amely különböző beszédfelvételek, illetve zajok, különféle kombinációjából áll össze. Az adatbázist felhasználva, létrehozom a hangfájlok frekvenciatartománybeli alakját, majd kinyerem a megfelelő hang jellemzőket, mint például a mel-frekvenciás kepsztrális együtthatókat (MFCC), lineáris predikciós együtthatókat (LPC) valamint az optimális valós és komplex értékű maszkokat, amelyeket a mély neurális hálózathoz használok fel.

Egy modern gépi-tanuló eljárást használva, a megtervezem és tanítom a mély neurális hálózatot, és tesztelem a modellt a különböző értékelési kritériumok és az adatbázis egy olyan részhalmazán végzett hallási teszt által, ami nem volt felhasználva a tanulási eljárás során.

A kutatás azt vizsgálja, hogy a munka megoldja-e az egész zajelnyomást a hozzá tartozó tanítási és tesztelési folyamatokkal.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.