Globális szótár építése szemantikus technológiákhoz

OData támogatás
Konzulens:
Recski Gábor András
Automatizálási és Alkalmazott Informatikai Tanszék

Mindennapi életünkben egyre fontosabb szerepet tölt be a természetes nyelv számítógép segítségével történő feldolgozása. Digtitalizált világunkban egyre inkább alapkövetelmény, hogy a gép és ember közötti kommunikáció természetes nyelven történjen. Ennek a megvalósításához elengedhetetlen az emberi nyelv szemantikai értelmezése.

Manapság a state-of-the-art rendszerekben a szavak szemantikai reprezentációja sokdimenziós vektorokkal, word embeddingekkel történik. A számítógépes szemantikán belül egy új kutatási terület a különböző nyelvű embeddingek közötti leképzéseket vizsgálja a (Mikolov et al., 2013b), (Smith et al., 2017), (Conneau et al., 2017).

A diplomaterv bemutat egy új módszert különböző nyelvű embeddingek közötti lineáris leképzések keresésére. A korábbi módszerekkel ellentétben ezen leképzéseket a rendszer nem két adott nyelv között tanulja, hanem az egyes nyelvek, illetve egy közös, univerzális tér között. A rendszernek input adatként szüksége van az adott nyelveken korábban feltanított embeddingekre, valamint az adott nyelvek közötti szófordítási párokból álló tanítóhalmazra.

A kísérletekhez a \textit{fastText} (Conneau et al., 2017) embeddingeket használtuk. A rendszert először két nyelv között tanítottuk, amely tanítást két különböző adaton is kipróbáltunk; elsőként Dinu angol-olasz benchmark adatán (Dinu et al., 2014), majd pedig a PanLex adatbázisból (Kamholz et al., 2014) kinyert angol-olasz fordítási párokon. Ezek után a PanLex adatbázisből többnyelvű fordítási párokat is kinyerve a rendszert három nyelven - angol, olasz és spanyol - párhuzamosan tanítva is teszteltük.

A rendszer teljesítménye a legjobb beállításokkal angol-olasz nyelveken tesztelve messze meghaladja Mikolov et al. (2013b) baseline rendszerének teljesítményét, továbbá összemérhető eredményeket produkál Faruqui és Dyer (2014), illetve Dinu et al. (2014) szofisztikáltabb módszereivel. A jelenlegi state-of-the-art rendszerek azonban még messze jobban teljesítenek a mi rendszerünknél. Három nyelven párhuzamosan tanítva a rendszer gyengébb eredményeket produkál, mint a három nyelv páronkénti tanítása esetén. A PanLex adatbázis gazdagságát kihasználva a kidolgozott módszer segítségével lehetőség nyílik tetszőleges nyelvek közötti leképzések feltanítására.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.