Mély neuronhálók alkalmazása ultrahangos nyelvkontúr követésre

OData támogatás
Konzulens:
Dr. Csapó Tamás Gábor
Távközlési és Médiainformatikai Tanszék

Az artikuláció (a beszélő szervek mozgása) és az akusztikum (a keletkezett beszédjel) kapcsolata régóta foglalkoztatja a beszédkutatókat. A beszéd közbeni nyelvmozgást különböző technológiák segítségével lehet rögzíteni, pl.:ultrahang, EMA (elektromágneses artikulográf), MRI (mágnesrezonancia-képalkotás), röntgen.

A gyors artikulációs mozgás követésére ezek közül az ultrahang a legmegfelelőbb, mert egyszerűen használható, elérhető árú, valamint nagy felbontású (800x600 pixel) és nagy sebességű(akár 100 képkocka/mp) felvétel készíthető vele. Az ultrahangos technológia hátránya viszont ebben a témakörben, hogy a rögzített képsorozatból ki kell nyerni a nyelv körvonalát ahhoz, hogy az adatokon további vizsgálatokat lehessen végezni. A nyelvkontúr követés hagyományosan manuális vagy félautomatikus módon történt, azonban az elmúlt időszakban automatikus megoldások is megjelentek erre a célra (pl. AutoTrace).

A kutatás során a legújabb automatikus nyelvkontúr követő módszerek közül a nemzetközi szakirodalomban is előtérbe került mély neuronháló alapú technikákat vizsgáljuk. Az Indiana University beszédkutató laboratóriumában rögzített két beszélő (egy magyar és egy amerikai angol) ultrahangos felvételein az AutoTrace különböző mély neuronháló elrendezéseit elemezzük annak eldöntésére, hogy melyik architektúra és az adatok milyen típusú absztrakciója legalkalmasabb a feladatra.

Emellett meghatározzuk, hogy a tanítóadat mennyiségének függvényében milyen mértékben tudja az automatikus nyelvkontúr követés a manuálist közelíteni. A tipikus hibák (például eltávolodás az eredeti nyelvkontúrtól; hiányzó nyelvkontúr szakaszok) számszerűsítésére több hibamértéket hasonlítunk össze.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.