Beszédparaméterek párhuzamos modellezése mély neurális hálózatokkal

OData támogatás
Konzulens:
Dr. Gyires-Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

A gépi beszédkeltés kutatásában az elmúlt évtizedben a korábbi elemkiválasztásos (ún. unit selection) rendszerekkel szemben a beszéd paramétereinek statisztika alapú modellezése került előtérbe. Mára már kiemelkedően népszerűvé váltak a mély neurális hálózatok, melyek számos tudományterületen jelentős előrelépést hoztak a korábbi megoldásokhoz képest. Jelen diplomamunka során a hazai és a nemzetközi irodalomra támaszkodva mély neurális hálózat (Deep Neural Network, DNN) alapú gépi beszédkeltő rendszert dolgoztam ki, melynek működését a dolgozat során részletesen bemutatom.

Munkám során a szöveg fonetikus átirata és a beszédparaméterek közötti kapcsolatot DNN modellezi. Ehhez első lépésként a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék Beszédtechnológia és Intelligens Interakciók Laboratóriumának korábbi rendszereiből és hang adatbázisaiból kiindulva a DNN tanításához szükséges tanító adatbázist létrehozó eljárás kidolgozására volt szükség. Ezek után a tanító adatbázist a nemzetközi irodalomra támaszkodva többféle neurális hálózati architektúrán tanítottam. Munkámban elsődlegesen a beszéd alapfrekvencia (f0) és az ún. spektrális paraméterek DNN-ekkel történő modellezését vizsgálom magyar nyelven. Az optimálishoz minél közelebb lévő hiperparaméter-beállítást sztochasztikus elven működő hiperparaméter-optimalizással kerestem. Mind az alaprendszer kidolgozását, mind pedig a hiperparaméter optimalizálást kísérleti mintarendszerben demonstrálom.

Dolgozatomban nagy hangsúlyt fektettem arra, hogy a jelenlegi beszédkeltő rendszerek gyengeségeit - például a hosszabb szövegek generálásakor jelentkező zavaró monotonitást – minél inkább mérsékeljem. Ennek megvalósítására egy speciális – ún. aggregált (ensemble) architektúrát alkalmaztam a mély neurális hálózatok tervezésekor. A kutatómunka ezen részét konzulenseimmel konferenciacikk formájában a SPECOM 2016 nemzetközi konferencián publikáltuk, melyet előadás formájában is bemutattam angol nyelven.

Jelen dolgozat rávilágít, hogy a DNN-el történő beszédparaméter modellezés – optimálishoz közeli hiperparaméterek használata esetén - érdemleges előrelépést nyújthat a korábbi megoldásokhoz képest.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.