Spontán beszéd automatikus felismerése

OData támogatás
Konzulens:
Dr. Szaszák György József
Távközlési és Médiainformatikai Tanszék

A beszédfelismerésre joggal tekinthetünk úgy, mint az informatika egyik legfejlődőképesebb területére, mely még sok lehetőséget, ki nem dolgozott vagy csírájában lévő módszert rejt magában. Megannyi alkalmazás tartalmaz már beszédfelismerő funkciót, vagy kiforrottabb esetben teljesen ezen alapul a működése. Gondolhatunk itt pl. a témaspecifikusabb (orvosi, jogi területen használatos) vagy általánosabb célú diktálórendszerekre, de egy személygépkocsiban beszéddel vezérelhető GPS-készülék is legalább olyan hasznos.

A féléves munkám során a BME TMIT Beszédakusztikai Laboratóriumától kapott Magyar Középszótáras Beszédfelismerő (MKBF) keretrendszerével végeztem beszédfelismerési kísérleteket. Ehhez kiinduláskor egy beszéd-, valamint egy szövegadatbázist kellett előkészíteni, melyhez a forrásokat a Debreceni Egyetem Általános és Alkalmazott Nyelvészeti Tanszéke biztosította. Az általuk kezdeményezett HuComTech-projekt keretén belül (szimulált) állásinterjúkat készítettek mintegy 120 emberrel, sor került kötetlen beszélgetésekre is, valamint mondatokat olvastattak fel az interjúalanyokkal. A címben említett „spontán beszéd” az állásinterjúk felvételeire vonatkozik, az ezekben elhangzottakat kívántam felismertetni az MKBF szoftverrel.

A féléves munkám két szakaszra osztható, egy tanítói és egy tesztelői fázisra. Először az adatbázisokból akusztikai és nyelvi modellt kellett építeni és betanítani, ehhez használtam többek között a Praat akusztikai elemzőszoftvert, laboratóriumtól kapott alkalmazásokat, valamint az általam írt, az adatok csoportos feldolgozására alkalmas segédscripteket.

Az akusztikai modell tanításának eredményeként létrejött 36 darab fonémamodell (fonémáként 1-1 Markov-modell), melyek a hangfelvételekből számított statisztikai jellemzőket tartalmaznak. A nyelvi modell tanításához egy közel 5000 szavas szótárt hoztam létre, valamint kigyűjtöttem szöveges állományba az interjúalany által elhangzottakat. A létrejövő bigram modell valószínűségeket tartalmaz „egy adott szó – az adott szót megelőző szó” párosokra, ezzel pontosabb felismerést lehet elérni, hiszen figyelembe veszi, hogy nyelvünkben melyik szavak követik gyakrabban/kevésbé gyakrabban egymást.

A tanítás után következhetett a tesztelés, melynek során a szópontosság értékeket vizsgáltam, és eredményeket gyűjtöttem a fonémák felismeréséről is. A kezdeti 20-30 %-os fonémafelismerés, és az ezzel járó 0-10 %-os szópontosság értékek miatt új felvételeket készítettem (felvételenként az állásinterjú 1-1 mondata hangzott el, összesen 21 db személyenként), valamint új akusztikai modellt tanítottam be. Először az eredeti nyelvi modellt használva, 50-60% közötti szópontosság értékeket kaptam, egy új nyelvi modell tanításával – mely csak a korlátozott számú mondat alapján készült – pedig 85-95 % körüli értékeket.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.