Szövegelőkészítés és -osztályozás dialógusokban

OData támogatás
Konzulens:
Dr. Szűcs Gábor
Távközlési és Médiainformatikai Tanszék

Egy általános segítségnyújtással foglalkozó levelező listán előfordul, hogy akár időszakonként, akár időszak függetlenül ugyanazok a kérdések fordulnak elő, csak más szövegezéssel. A dolgozat bemutat egy megvalósult szoftvert, amely a szöveg előkészítés és –osztályozás segítségével válaszol meg egy újonnan érkező kérdést.

Bemutatom azokat a választási lehetőségeket, amelyeket az egyes részfeladatok megvalósításához alternatívaként megvizsgáltam. Részletezem a szöveg előkészítésének lépéseit, a tokenekre bontástól kezdve a stopszó szűrésen át a szótövezésig. A tokenizálásnál önálló jelentéssel bíró egységekre (szavakra) bontjuk a szöveget majd ezt a lépést a stopszó szűrés követi, ami a gyakori, majdnem minden dokumentumban előforduló szavak elhagyását eredményezi. Az elemzés szempontjából releváns szavak szótövezését a Tordai-féle szótövező Light2-es verzióját, illetve a hunmorph adatbázisát használva végeztem el.

Az általam megvalósított rendszer feladata az adott szöveg megfelelő osztályba sorolása, majd a megfelelő válasz előállítása. Ehhez az osztályozáshoz a Bayes döntésen alapuló Naiv Bayes osztályozót használom Laplace simítással.

Az osztályozás és a szövegfeldolgozás feladatköre jól illeszkedik egy szöveg alapú érzelem osztályozó komponens megalkotásához az úgynevezett VIRCA rendszerben, amelyben szintén szöveget kell a hat alap érzelemhez (düh, szomorúság, öröm, félelem, meglepődés, undor) tartozó osztály egyikébe besorolni. A dolgozat bemutatja a VIRCA keretrendszerét és az elkészült komponenseket működés közben.

A dolgozatom további részében bemutatom a megvalósított szoftver környezetének kialakításához felhasznált technológiákat, illetve bemutatom a rendszer működését, az osztályozáshoz felhasznált szótárak elkészítésének folyamatát. Az elkészített szótárak és az osztályozó segítségével megmutatom, hogy a kérdések számottevő része megfelelő osztályokba sorolható, ezáltal a kérdésekre adott automatizált válasz pontossága kielégítő.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.