Tudásalapú szövegelemző rendszer fejlesztése

OData támogatás
Konzulens:
Dr. Mészáros Tamás Csaba
Méréstechnika és Információs Rendszerek Tanszék

A digitális bölcsészet az informatika és a bölcsészettudományok határmezsgyéjén húzódó interdiszciplináris terület. Fennhatósága alá tartoznak az olyan kérdések, mint a digitális archívumok létrehozása és karbantartása, különböző művészi közlések számítógéppel megsegített elemzése vagy a kulturális trendek követése és előrejelzése. Szűkebben értelmezve – a munkám tudományos hátteréül szolgálva – a digitalizált, írásos történelmi művek elemzéséről, effajta korpuszok építéséről szól.

Diplomatervem egy olyan rendszer megtervezésére és megvalósítására irányult, mely a digitális bölcsészeti kutatások eszközévé válhat. A cél egy tudásalapú szövegelemző rendszer fejlesztése volt: történelmi művek informált elemzése szakterületi tudás felhasználása mellett.

A rendszer kontextusában egy-egy mű alatt adatok egész sorát értjük: magát a forrásművet, az írói szótárat, kritikai jegyzeteket és a nevesített entitások listáját. A rendszer ezen adatokból egy olyan modellt épít, mely lehetővé teszi, hogy a műhöz formalizált tudást csatoljunk: ehhez felhasználjuk a bevitt szakértői ismereteket (pl. szótárbeli szócikkek szóalakjai, szófajai, adott műrészletekhez kapcsolódó kritikai jegyzetek), valamint külső tudásforrásokat – pl. a DBpediát –, melyekből a nevesített entitásokhoz (földrajzi helyekhez, személyekhez) igyekszünk keresni információkat.

Mivel a műről alkotott modellünk járulékos tudást hordoz magában, ezért olyan elemzéseknek lehet alávetni, amelyek nem lennének lehetségesek nélküle: szótáralapú szövegnormalizálás, archaikus szövegek szófaji címkézése, keresőszó-kiegészítés a kritikai jegyzetek alapján vagy személyekhez és földrajzi helyekhez kapcsolódó tudás felhasználása modellbéli entitások szűrése során. Ezzel párhuzamosan a rendszer statisztikai (pl. stilometriai) elemzések végrehajtására is lehetőséget nyújt.

Az írásműben bemutatom a rendszer által nyújtott elemzési képességeket, a rendszer architektúráját, a kapcsolódó tervezési döntéseket, a rendszer funkcionális komponenseit. A bemutatáshoz használt mintapélda Mikes Kelemen Törökországi leveleinek kritikai kiadása, Hopp Lajos jegyzeteivel. A stilometriai képességeket a magyar barokk irodalom képviselőinek – köztük Mikes Kelemennek – a műveiből képzett korpuszon mutatom be.

A rendszerrel szembeni követelmények megfogalmazásában, formalizálásában a Magyar Tudományos Akadémia Bölcsészettudományi Kutatóközpontjának Irodalomtudományi Intézete, valamint konzulensem, Dr. Mészáros Tamás volt segítségemre, aki tartotta a kapcsolatot az Intézet munkatársaival. A Levelek járulékos adatait is az Intézet munkatársai bocsájtották a rendelkezésemre.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.