Akusztikai előfeldolgozó egység elkészítése hangképzőszervi elváltozások automatikus detektálásához

OData támogatás
Konzulens:
Dr. Vicsi Klára
Távközlési és Médiainformatikai Tanszék

Az orvostudomány és az egészségügy jelenlegi állása szerint azoknak az embereknek, akiknek valamilyen beszédképzést érintő megbetegedésük van, sokszor heteket, hónapokat kell várniuk a pontos diagnózishoz, a sok vizsgálat miatt. Ez a várakozás könnyen abnormalitáshoz vezethet a beszédképző szervben (gégegyulladás), más esetben ez akár súlyosabb következményekkel is járhat (garattumor). Az eddigi orvosi és akusztikai kutatásokból kiderül, hogy a beszédhangoknak és ezen belül a magánhangzóknak vannak olyan paraméterei, amelyek alkalmasak lehetnek az egészséges és a patológiás hangok szétválasztására.

A munkám során az volt a feladatom, hogy elkészítsem egy olyan interaktív akusztikai elemzőszoftver prototípusát, illetve részeit, amely alkalmas folyamatos beszéd elemzésére valós időben. Az elképzelés szerint a páciens felolvas egy mondatot, illetve szöveget a programnak, amely ezt követően a magánhangzókat meghatározza és kiszámol négy alapvető paramétert: az alaphangot, az alaphang-ingadozást (jitter), az amplitúdó-ingadozást (shimmer) és a harmonikus- és zajkomponensek energiaarányát (HNR), ezt követően a számolt értékek alapján osztályozza a hangmintát betegségek szerint. Ezáltal lehetőség van arra, hogy a páciens már első alkalommal az orvosnál tájékoztatást kapjon a lehetséges betegségéről, hogy el lehessen kezdeni a kezelést.

Először, nem valós időben működő elemzőszoftver (Praat) által használt akusztikai paraméterszámító algoritmusokat valósítottam meg a programom előfeldolgozó moduljában. A programom egyes moduljait és a Praat algoritmusait statisztikai paramétereikkel és statisztikai próbákkal hasonlítottam össze. Az eredmények bíztatóak voltak, az implementált algoritmusaim helyesen és konzisztensen számítják ki az említett négy paramétert.

Ezt követően lehetővé tettem, hogy a program folyamatos beszédre is működjön valós időben. A felhasználó felolvas egy előre meghatározott mondatot, melyből a programom kényszerített illesztő modulja meghatározza a magánhangzókat (én az ’e’ hangokat vizsgáltam). Végül pedig az előfeldolgozó kiszámolja a paramétereket és megjeleníti azokat a felhasználónak, így a felolvasást követően már másodperccel visszajelzést kaphat a hangjáról.

A legfontosabb jövőbeli terv az osztályozó modul megvalósítása.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.