Kóros hangképzési rendellenességek diagnosztizálási lehetőségei

OData támogatás
Konzulens:
Dr. Vicsi Klára
Távközlési és Médiainformatikai Tanszék

Ez a dolgozat kóros hangképzési rendellenességek automatikus osztályozási lehetőségeit tárgyalja. Feladataim elvégzéséhez a BME TMIT Beszédakusztikai Laborban összeállított, kóros hangmintákat is tartalmazó beszédadatbázist használtam. A hangminták minőségét egy foniátriai szakorvos határozta meg az RBH kód szerint, amely egy négyfokozatú szubjektív rekedtségi skála (0 = normál hangminőség, 3 = súlyos rekedtség). Ennek a kódnak a H paramétere alapján – ami a beszéd rekedtségét általánosan jellemzi – állapítottam meg az egészséges és kóros mintahalmazokat. Ezen a hangadatbázison kívül még felhasználtam a Magyar Referencia Adatbázis (MRBA) számos felvételét, hogy az egészséges minták számát megnöveljem.

Első feladatom az egyosztályos és kétosztályos Szupport Vektor Gépek (SVM) osztályozási pontosságának összehasonlítása volt. Ehhez a vizsgálathoz az egészséges és kóros mintahalmazokat használtam fel. Az osztályozási kísérletek során a folytonos beszéd „e” magánhangzóinak különböző akusztikai paramétereit ültettem az SVM-ek bemeneti vektoraiba: jitter ddp, shimmer dda, HNR és MFCC. A tesztelés során normál tesztelési módszert, valamint teljes keresztkiértékelést is alkalmaztam. A kapott eredmények azt mutatták, hogy az általam vizsgált két mintahalmazt a kétosztályos SVM segítségével lehet a legpontosabban szétválasztani. Az így elért legjobb eredmény 86.1%, 108 egészséges, és 108 kóros mintát tartalmazó halmazon.

Második feladatom különböző betegségcsoportok elkülönítése volt. Ehhez két betegségtípust választottam ki: a funkcionális dysphoniát, illetve a hangszalagbénulást. Az osztályozást kétosztályos SVM-vel végeztem el különböző bemeneti vektor összeállításokkal. A korábbi vizsgálatoknak megfelelően a folytonos beszéd során kiejtett „e” hangokon kívül, a teljes beszéd akusztikai paramétereinek használatával kapott eredményeket is megvizsgáltam. A legjobb elkülönítési pontosság 78.9% volt, ha a teljes beszédet vettem figyelembe.

Végül megvizsgáltam, hogy a fentebb említett betegségcsoportokat mikor lehet a legnagyobb pontossággal diagnosztizálni: egylépéses, vagy kétlépéses osztályozási módszer alkalmazásával. A feladat elvégzése során arra a következtetésre jutottam, hogy jelenleg a hangszalagbénult eseteket lehet a legnagyobb százalékban felismerni (51.3%), ha egylépéses osztályozást használok.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.