Magyar nyelvű rejtett Markov-modell alapú szövegfelolvasó továbbfejlesztése

OData támogatás
Konzulens:
Dr. Gyires-Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

Az általános szövegfelolvasók olyan beszédszintézis rendszerek, melyek képesek tetszőleges, adott nyelven írt szöveget beszéddé alakítani. Az általános törekvés az, hogy olyan mesterséges beszédet szeretnénk előállítani, ami egyrészt minél érhetőbb, másrészt minél inkább hasonlít az emberi beszédre. Ennek megoldására számos megközelítést dolgoztak ki és használnak jelenleg is. Az utóbbi időben egyre inkább előtérbe került a probléma statisztikai alapon történő megközelítése. Ilyen statisztikai módszerekkel működnek a rejtett Markov-modell alapú szövegfelolvasók. Ezeket a legjobb minőséget képviselő rendszerek közé sorolhatjuk.

Ennek a fajta megközelítésnek nagy előnye, hogy kis futásidejű adatbázisméret mellett képes jó minőségű beszédet előállítani, továbbá segítségével lehetőségünk van különféle beszédstílusok, illetve érzelmek visszaadására is. A futásidejű kisméretű adatbázis annak a következménye, hogy a rendszer nem hangmintákat, hanem a beszédből kinyert paramétereket tárol, ezeket modellezi rejtett Markov-modellek segítségével. A rendszer működéséhez szükség van egy tanítási fázisra, ehhez pedig egy tanító adatbázisra. Ebből nyerjük ki a szükséges paramétereket a tanítás során. A szintetizálás során, amikor egy írott szöveget szeretnénk felolvastatni, a szintetizálandó szöveghez legjobban illeszkedő paramétereket határozzuk meg a betanított modellek alapján. A végleges hullámforma ezekből áll elő, beszédkódolóknál használatos megoldások segítségével. A jelenlegi törekvések az előállított beszéd minőségének javítását célozzák meg.

Munkám kiindulási alapja egy magyar nyelven működő, rejtett Markov-modell alapú beszédszintetizátor volt. A diplomadolgozatban részletesen bemutatott összes törekvésem arra irányult, hogy ez a rendszer minél jobb minőségű beszéd előállítására legyen képes. Ennek érdekében a rendszer több lépésében is módosításokat hajtottam végre. A módosítások egyes részei speciálisan a magyar nyelv sajátosságait használják ki, a módszerek azonban más nyelvekre is hasonlóan alkalmazhatóak. A változtatások elvégzése után igyekeztem a módosított rendszer minőségét mérni. A beszédszintézis rendszerek természetességének objektív mérése sajnos nem megoldott feladat, a minőséget szubjektív meghallgatásos tesztekkel szokták mérni. Ilyen tesztekkel értékeltem én is az elvégzett javításokat. A teszteredmények jelzik a módosításokkal elért minőségbeli javulást a kiindulási állapothoz képest.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.