A beszéd alapfrekvenciájának statisztikai vizsgálata és modellezése

OData támogatás
Konzulens:
Dr. Gyires-Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

A beszéd egyik fontos jellemző paramétere a beszéd alapfrekvenciája. Napjaink szövegfelolvasó eljárásainak egyik legnagyobb kihívása a beszéd alapfrekvencia menetének minél természetesebb modellezése, illetve változatossá tétele.

Munkám során áttekintettem a beszéd alapfrekvenciáját kinyerő eljárásokat és modellezési lehetőségeket. Felcímkéztem egy beszédkorpuszt az alapfrekvencia (intonáció) érzeti változatosságának szempontjából, majd statisztikai módszerekkel megvizsgáltam és kiértékeltem a kialakult osztályok jellemzőit.

Ezután a beszéd alapfrekvenciamenetét modelleztem kijelentő mondatok esetében. Ehhez modern gépi tanuló algoritmusokat használhattam fel a feladatkiírásom szerint. Visszacsatolt, Long Short-Term Memory alapú mély neurális hálózatok felhasználása mellett döntöttem. Ennek érdekében először megismerkedtem a neurális hálózatokkal elméletben és gyakorlatban a beszédtechnológiai célú felhasználás előtt.

A sikeres alapfrekvencia-modellezés után bevezettem a korábban kialakított intonáció változatosság paramétert a modellbe. Az általam javasolt eljárás segítségével egy mondathoz többféle alapfrekvencia-menet generálható a kívánt intonációs változatosság szintjének megadásával. A megoldáshoz a Long Short-Term Memory alapú mély neurális hálózaton túl Random Forest osztályozót is felhasználtam.

A kiegészített modellen végül objektív és szubjektív kiértékelést is végeztem.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.