A kóros beszéd automatikus felismerésének vizsgálata a tanító mintaszám növelésével

OData támogatás
Konzulens:
Dr. Vicsi Klára
Távközlési és Médiainformatikai Tanszék

A félév során a BME TMIT Beszédakusztikai Laboratóriumának egyik projektjébe csatlakoztam be, mely a kóros beszéd automatikus felismerésével foglalkozik. Feladatom ezen belül a tanító mintaszám növelés hatásának vizsgálata volt a kóros és egészséges minták elkülönítésére.

A mérésekhez a Beszédakusztikai Laboratóriumban létrehozott adatbázis felvételeit az MRBA (Magyar Referencia és Beszéd Adatbázis) 49 db hanganyagával egészítettem ki, így egy 302 elemű referencia adatbázis állt rendelkezésemre a mérések megkezdésekor.

A felvételek válogatása során kiválasztásra kerültek olyan állományok is, melyek feldolgozása korábban nem történt meg. 15 hanganyag mellé elkészítettem az annotációs fájlt is.

A referencia adatbázis létrehozását követően RBH kód H paramétere szerint csoportosítottam az állományokat, így 127 egészséges, azaz H0-s és 175 kóros H1-2-3-s felvétellel az ’E’ és ’O’ beszédhang jitter, shimmer, MFCC1 paraméterét felhasználva megkezdtem a vizsgálatokat.

A legjobb felismerési arányt az ’E’ hang vizsgálatával egy 119 egészséges és 152 kóros felvételt tartalmazó mintahalmazzal értem el, ez az elkülönítési pontosság 94% volt. Az eredmény igen jelentős, mert ebben a kutatásban még nem volt minden H paraméterű hang felhasználásával 90% feletti eredmény. A félév során vizsgáltam továbbá, hogy a nemek elkülönítése hatással van-e az eredményekre. A kapott értékek azt mutatták, hogy a nemek szétválasztásával és megfelelő arányokkal kialakított osztályok esetén 90% feletti pontosság érhető el már a korábbi vegyes vizsgálatok során alkalmazott mintaszám felével is. A félév végén a nehezen besorolható H0-1-es felvételek miatt egy új 3 osztályos SVM-mel dolgoztam, mely a kóros és egészséges mintahalmaz mellett egy átmeneti osztályt is tartalmazott. Kis mintaszám esetén ez az osztályozó megbízhatóan, 90% felett teljesített, de az egészséges halmaz elemeinek növelésével a felismerés 85% alá esett.

A későbbi munkám során célom a felismerési pontosság tovább növelése, illetve a zöngeképzési rendellenességek mellett az artikulációs problémák detektálása is. Utóbbihoz az RBH kód helyett egy másik osztályozási módot kell kidolgozni, továbbá célirányosan bővíteni kell az adatbázist, hogy megfelelő mennyiségű minta álljon rendelkezésünkre a vizsgálatok megkezdéséhez.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.