Modern beszédkódoló alkalmazása rejtett Markov-modell alapú szövegfelolvasóban

OData támogatás
Konzulens:
Dr. Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

A beszéd minden kétséget kizáróan az egyik legfontosabb kommunikációs forma az emberek között, ezért jelentős számú törekvés irányul arra, hogy a beszédet az ember és gép közötti kommunikációra is fel lehessen használni.

Számos szövegfelolvasási módszer létezik, mint például a formánsszintézis, vagy elemkiválasztó szintézis. A beszédelőállító rendszereket érthetőség és természetesség szempontjából szokták értékelni. Ezen szempontok szerinti értékelés alapján az elemkiválasztó szintézis segítségével érték el a legjobb eredményeket. Azonban a generált hang minősége és a rendszer műszaki jellemzői szorosan összefüggnek. A jó minőségnek tehát ára van, éppen ezért az elemkiválasztó szintézis alapú szövegfelolvasó rendszerek adatbázisának mérete a gigabyte-os nagyságrendbe esik, ami nagynak mondható, s a számítási igények is jelentősek. Az adatbázis a beszélő hangját közvetlenül meghatározza, tehát változtatni csak transzformációk segítségével lehet, ami a minőséget többnyire jelentősen rontja.

A rejtett Markov modell alapú beszédszintézis statisztikai alapokon működik, mely azt jelenti, hogy nem „megjegyezzük” a hullámformákat, hanem általános tulajdonságait nyerjük ki és ezekből állítjuk vissza a beszédet. Legfőbb előnye ennek a megközelítésnek, hogy a beszéd előállítása így nagyságrendekkel kevesebb memóriát igényel. A HMM (Hidden Markov Model) rendszert mobil eszközön így célszerűen lehet alkalmazni. További előnye ennek a megvalósításnak, hogy a hang karakterisztikája változtatható, adaptálható, valamint képes lehet megfelelő tanító adatbázis esetén érzelmek kifejezésére is.

Jelen dolgozatban a HMM alapú beszédelőállító rendszerhez egy olyan új beszédkódoló illesztését tekintem át, melynek segítségével javulás érhető el az előállított beszéd minőségében.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.