Szubjektív beszélőazonosítás vizsgálata interneten keresztül

OData támogatás
Konzulens:
Dr. Szaszák György József
Távközlési és Médiainformatikai Tanszék

A BME TMIT Beszédakusztikai Laboratóriuma telefonos hanganyagot kapott egy biztosítótól. A biztosító feltételezése szerint egy személy elváltoztatta a hangját, és több ügyfelük nevében csalásokat hajtott végre, illetve próbált meg végrehajtani. Ennek bizonyítására, vizsgálatára a laboratóriumot kérték meg. Így a munkám során a beszélőazonosítás témakörével fogalakoztam, amely a szóban forgó feladathoz kapcsolódik.

Irodalomkutatásom során először a szubjektív tesztekre fókuszáltam, ezt követően Interneten elérhető tesztkörnyezeteket specifikáltam, terveztem, implementáltam és teszteltem iteratív módon. A tesztkörnyezetek webes felületét Silverlight technológiával készítettem el. A teszteket elvégeztettem reprezentatív populációval (50 illetve 40 fő), majd az eredményeket kiértékeltem Python-scriptek, Excel-táblázatok segítségével.

Három hipotézist fogalmaztam meg, melyekről az alábbiak mondhatók el: részben megdőlt az a hipotézisem, hogy az emberek jó arányban képesek egy referenciamintához viszonyítva megállapítani, hogy egy, a referenciamintán beszélő személytől különböző ember hangját hallják, vagy felismerik a beszélő hangelváltoztatását. A helyes döntések aránya az egyes hangmintapárosoknál 17% és 95% között szórt, így látható, hogy nem véletlen találgatással döntöttek az emberek, csak valakit jobban utánzott a beszélő, valakit pedig kevésbé jól. Megdőlt az a hipotézisem is, hogy az emberek sokkal jobb eredményt érnek el a beszélőazonosításban, ha a felvételen egy szónál csak kevéssel hosszabb egységeket hallanak (2-3 szó). Az összes felvételt tekintve csupán 50%-ról 55%-ra változott a helyes döntések aránya. Azonban részben beigazolódott, hogy az emberek jobb eredményt érnek el a hangelváltoztatás felismerésében, ha rendelkezésre áll az eredeti beszélő referenciamintája is. Összegezve tehát a szubjektív lehallgatási kísérletek azt mutatták, nem minden esetben jók az emberek a beszélőazonosításban.

Ezután áttértem a beszélőazonosításhoz kapcsolódó akusztikai vizsgálatokra. Tanulmányozva a témakörhöz tartozó irodalmat, kiválasztottam a vizsgálni kívánt paramétereket, majd az ahhoz szükséges script-eket megterveztem, és implementáltam Praat programban. A szükséges hanganyagot automata módszerrel és kézi korrekcióval szegmentáltam és annotáltam. A script-eket lefuttattam, az eredményeket feldolgoztam, és kiértékeltem Microsoft Excel és Matlab segítségével. A szubjektív értékeléseimet összevetettem statisztikai próbákkal is.

Megállapítottam, hogy a szubjektív tesztek esetén feltehetően leginkább az alaphang volt az a paraméter, ami segített az emberek döntésében. Ha a teljes hangfelvételeket nézzük, a hangelváltoztatás felismerése, a beszélők megkülönböztetése és azonosítása szempontjából a hangszalagrezgések frekvenciaingadozását kifejező Jitter-paramétereknek is fontos szerepe van. Így a szubjektív tesztek után, mely inkább az emberek szemszögéből érintette a beszélőazonosítás témakörét, az objektívebb, akusztikai vizsgálatokkal is sikerült konkrét eredményeket elérnem. A két módszer eredményeit a végén összevetettem, következtetéseket vontam le, tehát a kitűzött céljaimat elértem.

Úgy gondolom, a beszélőazonosítás továbbra is a beszédtechnológia egyik fejlődő ágazata, a kutatók számára további lehetőségeket hordoz magában, ipari vonatkozása is egyre hangsúlyosabb.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.