Digitális könyvtár kiterjesztése kontrollált nyelvű szemantikus kivonatokkal

OData támogatás
Konzulens:
Dr. Mészáros Tamás Csaba
Méréstechnika és Információs Rendszerek Tanszék

Az interneten hozzáférhető információ mennyisége rohamos mértékben nő, tudományos eredmények nagy száma kerül publikálásra különböző formátumokban a világhálón. Az orvosbiológiai és egészségügyi publikációkat gyűjtő MEDLINE adatbázisába például az előző év során naponta átlagosan több mint 2000 új cikk került feltöltésre, az egyes biológiai adatbázisok pedig milliós nagyságrendű adatokat tartalmaznak. Ez az információözön azonban mégsem vonja maga után a tudás hasonló mértékben való terjedését, mivel a felhasználók számára nehéz feladat az érdeklődésükhöz kapcsolódó releváns információ hatékony felderítése.

Az információelérés eredményesebbé tételéhez az információtárolási módszerek javítására van szükség. A különböző szemantikus web technológiák segítségével a dokumentumok tartalma formális, gépek által is értelmezhető módon leírható, ám ennek elkészítéséhez speciális szaktudás, tárgyterületi és technológiai jártasság is egyaránt szükséges. Ahhoz, hogy minél több dokumentumhoz elkészülhessen a szemantikus reprezentáció, olyan megoldásokra van szükség, melyeket a technológiákban kevésbé jártas felhasználók is használni tudnak. A kontrollált természetes nyelvek segítségével áthidalható a formális logikai reprezentáció és a felhasználók számára kézenfekvő, természetes nyelvű tudásábrázolás közötti szakadék.

A diplomamunkám során egy olyan módszertant dolgoztam ki, mely digitális könyvtárakban lehetőséget biztosít a publikációk tartalmának formális leírására a szemantikus technológiák konkrét ismerete nélkül is. A megoldást a kontrollált nyelvű szemantikus kivonatok (CLA) biztosítják. A CLA keretében a felhasználók számukra természetes nyelven, a hagyományos összefoglalókhoz hasonló formában összegyűjthetik a publikációk fontos állításait. A CLA abban különbözik a klasszikus kivonatoktól, hogy mondatainak egy adott kontrollált nyelvtannak kell megfelelnie. A kontrolált szerkezetű állítások készítése egy interaktív, támpontokat adó szerkesztőfelület segítségével könnyen elvégezhető. A nyelvtannak köszönhetően a szöveges CLA-k átalakíthatóak egyértelmű formális reprezentációkká, amelyekből egy komplex tudásbázis építhető fel.

A dolgozatomban részletesen bemutatom a munkám során kidolgozott komplex digitális könyvtár rendszert, melyben lehetőség van CLA-k készítésére és a szemantikus technológiák használatára. A könyvtárban felépülő szemantikus tudásbázisra alapozva új intelligens szolgáltatások vezethetőek be, mint például a tartalmi irányú, szemantikus keresés. A módszertan elemeit egy elkészített példa implementáció segítségével mutatom be úgy, hogy az elképzelések könnyen adaptálhatóak legyenek más digitális könyvtár rendszerekbe is.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.