Open Access tudományos cikkek nyelvi és szemantikus előfeldolgozása

OData támogatás
Konzulens:
Kovács Ferenc
Automatizálási és Alkalmazott Informatikai Tanszék

Az elmúlt tíz év alatt az Open Access (OA) folyóiratok és cikkek száma nagyon nagy mértékben növekedett. 1999 és 2009 között a számuk megtízszereződött és a trend változatlan.

Az OA folyóiratok és cikkek ingyenesen hozzáférhetőek és letölthetőek mivel a kiadásuk nem az előfizetésekből befolyt pénz segítségével történik. Ez új lehetőségeket nyit meg a nyelvi, statisztikai és gépi tanulás módszereinek alkalmazására cikkek feldolgozásában. Például automatikus tartalom analízis, trend analízis és érzelem analízis végezhető el több cikken mint eddig bármikor.

Az én programom ehhez járul hozzá oly módon, hogy JATS formátumbeli cikkeket természetes nyelvfeldolgozásból származó információkkal egészít ki: tokenek, mondathatárok, nyelvtani és névelem információk (személynév, intézménynév és helységnév). A kibővített JATS XML jól definiált, további feldolgozásra alkalmas és megfelel a JATS formátumnak.

A szakdolgozatom bevezeti az olvasót a természetes nyelvfeldolgozásba és egy rövid áttekintést ad a klasszikus problémák (néhány szerepel az előző bekezdésben) megoldásainak módjáról. Továbbá kutattam a jelenleg elérhető és támogatott eszközöket ezen problémák megoldására különösen az Apache OpenNLP-t amit az implementációhoz használtam. Ezután bemutatom a szoftverfejlesztés két iterációját. Mindkét iteráció részletezett: tervezés, implementáció, tesztelés és verifikálás.

A szoftver Java nyelven készült és több könyvtárat használ. A legfontosabbak: Apache OpenNLP, SZTAKI annotare, Jetty és Apache Commons. A szofver HTTP API segítségével kommunikál. A funkcionális megfelelőségen kívül terhelés teszteket is végeztem a teljesítménymérésekhez mindkét iterációnál, így teljes képet alkotva a rendszerről.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.