Tanítható szemantikus annotáló rendszer fejlesztése kis méretű korpuszokhoz

OData támogatás
Konzulens:
Dr. Lengyel László
Automatizálási és Alkalmazott Informatikai Tanszék

Napjainkban rengeteg informatikai rendszer és kutatás használja fel a „big data” adathalmazok indukálta szemléletet és módszereket. Ugyanakkor kevesebb szó esik a személyre szabhatóságról és az egyéni gépi tudásreprezentációról.

Diplomatervem egyik célja, hogy megvizsgáljam egyes gépi tanuló algoritmusok -mint például a döntési fák, Bayes-féle osztályozók, neurális hálók, szupport vektor gépek, kNN és szabály alapú osztályozók- teljesítményét kis méretű, angol nyelvű korpuszokon mérések megtervezésével, végrehajtásával és kiértékelésével. Szintén gépi tanulással, valamint természetes nyelvfeldolgozás (NLP) segítségével közelítem meg az egyedi tudásreprezentáció problémáját, melynek feloldása a felhasználó aktív bevonásával történik, mégpedig szemantikus címkék, annotációk és keretek készítésének folyamatában.

Ehhez kapcsolódóan ismertetem azt a web technológiákon alapuló (PHP, jQuery, HTML5), szemantikus annotálást lehetővé tevő klienst, amely a felhasználó és a rendszer találkozási pontját jelenti. Ez a felület egyszerű és letisztult lehetőséget nyújt a szöveges dokumentumok kezelésére és az annotációs folyamat minden elemének menedzselésére.

Végezetül bemutatásra kerül egy saját fejlesztésű, Spring (JavaEE) alapú keretrendszer, amely a gépi megértés eredményeit, a Weka-ból érkező tanuló algoritmusok kimenetét előállítja és egy WebSocket alapú dialógusmotoron keresztül eljuttatja a felhasználói felületre, állandó kapcsolatot létesítve azzal.

Munkám dokumentálása során kitérek a megvalósítás részleteire, a felmerülő döntési és tervezési problémákra, valamint a keletkező komponensek kapcsolódására és bemutatására.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.