Intelligens többnyelvű szótár építése

OData támogatás
Konzulens:
Dr. Csorba Kristóf
Automatizálási és Alkalmazott Informatikai Tanszék

A természetes nyelvek szókincse sokféle lehet, azonban nyelvészek, pszichológusok, kognitív tudósok és mesterséges intelligenciával foglalkozó kutatók egyaránt tettek kísérletet egy közös alapszókincs azonosítására - ld. Ogden (1923); West (1953); Swadesh (1953); Schank (1972); Wierzbicka (1996); Goddard (2002); Boguraev et al. (1989); Mitchell (2008).

Kornai András Jelentésalapú nyelvtechnológia című OTKA-projektjének keretében,(https://www.sztaki.hu/fileadmin/department/Prospektus/IT_hu.pdf) létrejött egy 3000 elemű, a fenti kisérleteken alapuló alapvető szemantikus szótár, ez a projekt szolgáltatja a jelen szakdolgozatban leírt intelligens szótárépítő munka elméleti és intézményi hátterét.

Jelen állapotában a szemantikus szótár négy nyelvet fed le: angolt, magyart, lengyelt és latint. A munka célja, hogy a támogatott nyelvek számát legalább negyvenre emeljük. Mivel nem minden nyelvre érhetők el olyan nyelvfeldolgozó eszközök, mint a tövező, a helyesírás-ellenőrző, vagy a morfológiai elemző, ezért a 40 nyelvet a világ 50 legnagyobb nyelvéből (a korrigált Wikipédia méret alapján számolva, ld. Kornai 2012) választjuk ki: arab, azeri, baszk, bolgár, katalán, kínai, horvát, cseh, dán, holland, angol, eszperantó, észt, finn, francia, galíciai, grúz, német, görög, héber, hindi, magyar, indonéz, olasz, japán, kazah, koreai, latin, limburgi, litván, macedón, malagasy, maláj, norvég, oxitán, perzsa, lengyel, portugál, román, orosz, szerb, szlovák, szlovén, spanyol, szvahili, svéd, thai, török, ukrán, vietnámi.

Egy a Wiktionary alapján felállított kezdőszótártól 30-50 %-nál magasabb fedést nem várhatunk. Az intelligens szótárépítés feladatai két részből állnak, (i) a fordítási jelöltpárok automatikus kinyeréséből és (ii) ezek verifikálásából. A szótárépítés élvonalában (Melamed 2000, Saralegi et al. 2012) párhuzamos szövegek vagy géppel olvasható szótárak szolgálnak bemenetként, a jelen feladathoz azonban ezek semelyike nem áll rendelkezésre olyan mennyiségben, amellyel a Wiktionary-ken túlmutató szószedet készülhetne. Munkánk során saját párhuzamos korpuszokat építünk (elsősorban sok fordítással rendelkező dokumentumok alapján, mint amilyen a Biblia vagy a Mormon könyve, ld. Halácsy et al. 2008), valamint a wikipédiák kereszthivatkozásainak kihasználásával közel párhuzamos szövegeket állítunk össze.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.