Szövegelemző webalkalmazás fejlesztése

OData támogatás
Konzulens:
Dr. Mészáros Tamás Csaba
Méréstechnika és Információs Rendszerek Tanszék

A szövegelemzés napjaink egyik legfontosabb problémaköre. Alkalmazásai széleskörűek, a rohamosan növekvő mennyiségű természetes nyelvű szöveg elengedhetetlenné teszi őket.

A szövegelemzés egyik fontos, feltörekvő ágazata a stilometria, amely szövegek stílus alapú kategorizációjára fókuszál. Ez a módszer igen hatékony szerzőség-megállapítási kísérletekben és egyéb felhasználásai is vannak. A fő problémát az okozza, hogy az algoritmusok kiválasztása és paraméterezése egy összetett feladat, és az eszközök, amelyek rendelkezésre állnak, néhány kivétellel mind informatikusok általi felhasználásra lettek tervezve, telepítést és programozói ismereteket igényelnek.

Megvalósítottam egy szoftvert, amely mindkét problémakörre megoldást ad, egy már létező, széleskörűen használt könyvtárra építve. Az általam elkészített szoftver lehetőséget ad a felhasználónak szövegek feltöltésére egy adatbázisszerverre egy webes vékonykliensen keresztül, és azok elemzésére, ahol a számítások a szerveren futnak le. Használata egyszerű, semmilyen telepítést nem igényel.

Az elemzések paraméterezésének problémájára is adtam megoldást, a szoftverbe integrálva. Két megoldás is született, amelyek egymásra építve is képesek működni. Az első egy heurisztikus paraméterező, ami a szöveg jellegzetességeit használja fel, és egy összetettebb, biztosabb módszer, amely azonban sokkal lassabb. Az alapját egy ismert és használt technika alkotja, egy lokális keresés segítségével végzi el automatikusan a paraméterek beállítását.

Az egész rendszert kiegészítettem egy varázslóval, amely lépésről lépésre végigvezeti a felhasználót az egyes paraméterek beállításán, és tartalmaz magyarázatokat és tanácsokat azokkal kapcsolatban. Lehetőséget ad arra is, hogy a paraméterezés exportálható és importálható legyen.

A módszerek eredményességét leteszteltem egy, a stilometriában kevésbé járatos felhasználó eredményeihez viszonyítva és élvonalbeli kutatók által publikált eredményekkel is összehasonlítottam. Az eredmények alapján a szoftver a célját elérte, a célcsoport számára hatékony segítséget képes nyújtani, és képes volt megközelíteni a terület szakértőinek eredményét.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.