Magyar nyelvű szöveg alapú reprezentációk szintaktikai és szemantikai szempontú vizsgálata

OData támogatás
Konzulens:
Dr. Szaszák György József
Távközlési és Médiainformatikai Tanszék

A természetes nyelv feldolgozása során szükség van arra, hogy a szavakat és jelentésüket a számítógép számára értelmezhető módon ábrázoljuk. A disztribúciós hipotézis szerint a szavak jelentésére hatékonyan következtethetünk az alapján, hogy környezetükben mely szavak jelennek meg gyakran. Ezt használják ki a mély tanulással generált, viszonylag kis dimenziójú vektorok, az ún. beágyazóvektorok használatára épülő módszerek is. Angol nyelvű szövegek esetén általában egész szavakra generálnak beágyazásokat, azonban egy olyan intenzíven toldalékoló és viszonylag szabad szórendű nyelv esetében, mint a magyar, a szóalakok és a belőlük formálható mondatok mennyisége megnehezíti az e módon generált beágyazások hatékony alkalmazását. Adja magát az ötlet, hogy a szavaknál kisebb - morféma vagy morf - egységeket használjunk fel a beágyazások generálásához, ami viszont magában hordozza a szintaktikai vagy szemantikai információvesztés veszélyét.

Dolgozatomban összehasonlítom azt, hogy milyen hatással van a tanított beágyazások szemantikai, illetve szintaktikai hatékonyságára, ha a korpuszban az eredeti szavak helyén azok (vélt vagy valós) szótövei szerepelnek, illetve ha a szavakat morfémánként tagolva helyezzük el a szövegben. A beágyazásokat magyar nyelvű tesztszekvenciák segítségével értékelem ki, amelyeket a Google Analogy Test Set fordításával állítottam elő.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.