Hangképzési rendellenességek osztályozási lehetőségei akusztikai paraméterek alapján

OData támogatás
Konzulens:
Dr. Vicsi Klára
Távközlési és Médiainformatikai Tanszék

Ez a dolgozat az egészséges és beteg hangminták automatikus elválasztásának lehetőségeit tárgyalja. A feladat végrehajtásához a Beszédakusztikai Labor által készített hangadatbázist használta. Az adatbázis nő és férfi betegektől is tartalmaz hangmintákat. A páciensek nagy részét valamilyen hangképzési rendellenességgel diagnosztizálták, de készültek felvételek gyógyult, illetve egészséges alanyokkal is. A hangminták minőségét egy foniátriai szakorvos határozta meg az RBH kód alapján, amely egy négyfokozatú szubjektív rekedtségi skála (0 = normál hangminőség, 3 = súlyos rekedtség).

A Beszédakusztikai Labor által a kitartott és folyamatos beszéd esetén kiejtett magánhangzók voltak vizsgálva jitter, shimmer, HNR és mel-frekvencia-kepsztrum adatok (MFCC) alapján. Ezek a mérési eredmények azt mutatták, hogy az egészséges és patológiás hangmintákat a folyamatos beszéd esetén kiejtett magánhangzók esetén lehet szétválasztani.

A munkám során számos hangfelvétel szegmentálását végeztem el, egy automata szegmentáló segítségével. A rendelkezésemre álló hangmintákat az RBH kód alapján két csoportra bontottam. Azon a páciensek, akik hangminősége H1, H2, H3-as volt képezték a beteg csoportot, míg egészségesnek tekintettem azokat a hangokat, melyek H0 vagy H0-1-es minősítést kaptak. Az egészséges és patológiás hangok szétválasztásához Szupport Vektor Gépet (SVM) alkalmaztam Gauss (Radial Base Function, RBF) kernel függvénnyel. Összesen 32 egészséges (15 férfi és 17 nő) és 41 patológiás (16 férfi és 25 nő) hangfelvétel állt rendelkezésemre a tanításhoz és teszteléshez.

A teljes mintahalmazon a legjobb elérhető érték 79.46% volt „a” hang esetén, ha a jitter, shimmer és MFCC értékek külön-külön számított átlagát vettem figyelembe. A teljes kereszt validáció „a” hang tekintetében a nők esetében 80.95%-os eredmény mutatott, ha a jitter, shimmer, HNR és MFCC értékek átlagait építettem a tanítóvektorokba. A férfiak elkülönítésénél 77.42%-os pontosságot lehetett elérni „a”, „e” és „i” magánhangzók esetén is, amennyiben a statisztikai paramétereknek az minimumot, maximumot, átlagot, mediánt és szórást tekintettem.

A témával kapcsolatos további kutatásaim során szeretném az elkülönítési pontosságot növelni; távoli célom egy olyan szoftver fejlesztése, amely a páciens hangja alapján diagnosztizálja a betegséget.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.