A mintaszám növelésének hatása a kóros és egészséges beszédminták automatikus elkülönítésére

OData támogatás
Konzulens:
Dr. Vicsi Klára
Távközlési és Médiainformatikai Tanszék

Szakdolgozati témám során a kóros és egészséges beszédminták automatikus elkülönítésével foglalkoztam. A témakörrel foglalkozó hallgatók korábban elért eredményeit és mérési elrendezéseit vizsgáltam meg. Azokból nyert tapasztalatokat is felhasználtam az egyes feladataim megoldása során.

Első lépésként egy referencia adatbázis összeállítását készítettem el. Ez az adatbázis a Beszédakusztikai Laboratórium által felépített hangadatbázisból és a Magyar Referencia Beszédadatbázisból épül fel. 211 hangmintát válogattam ki az előbb említettből, míg az utóbbiból 49 hangmintát. 15 hangfájl mellé elkészítettem az annotációs fájlokat is.

A két kialakított osztály az egészséges és beteg csoport volt. Az osztályba sorolást a foniátriában alkalmazott RBH skála alapján állapítottam meg, a H komponens figyelembe vétele mellett. A H rekedtségi index egy négyfokozatú skálán van értelmezve. A H0-ás értékkel rendelkező hangmintákat egészségesnek soroltam be. A H1-H3-as besorolásúakat a beteg osztályba soroltam.

A kialakított referencia adatbázison kétosztályos SVM (Support Vector Machine) gépi osztályozó segítségével számos osztályozási kísérletet hajtottam végre. A folyamatos beszéd ”E” magánhangzóit vizsgálva, minden esetben teljes keresztkiértékelést és RBF (Radial Base Function) kernelt alkalmazva. A legjobb osztályozási eredményt a jitter ddp, shimmer dda, és mfcc1 külön-külön vett átlag és szórás értékeket tartalmazó jellemző vektorral értem el, ami 85,38% volt.

A célom az osztályozások során a 90%-os felismerési pontosság elérése. Az ehhez szükséges tanítóadatok számára próbáltam egy becslést adni. Számos osztályozási kísérletet hajtottam végre, melyek végén egy a mérési eredményekből származó görbét kaptam. Mely görbe a beszélők számának (hangminták száma) függvényében ábrázolja a kóros és egészséges minták osztályozásai során elért felismerési százalékokat. Az illesztés során logaritmikus trendvonalat használtam, ez adta a legmegbízhatóbb illesztést. Az eredményeim alapján az általam adott bemeneti vektor összeállítással, 400-500 hangminta melletti kétosztályos vizsgálatok során ez már elérhetővé válik.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.