Nagy teljesítményű intelligens nyelvfeldolgozás UIMA és Lucene segítségével

OData támogatás
Konzulens:
Dr. Bartha Tamás
Közlekedés- és Járműirányítási Tanszék

Természetes nyelvű szövegek feldolgozására számos szoftver áll rendelkezésre. Azonban ezek közül csak kevés képes megfelelően skálázódni nagy szöveghalmazok esetén.

A diplomaterv egy intelligens tartalomlétrehozó szoftver előállítására irányuló projekt részeként készült, a feladat a magyar és az angol nyelvű Wikipédia teljes anyagának feldolgozása. A munkám részeként elsajátítottam a természetes nyelvfeldolgozás és szövegbányászat alapismereteit, megismerkedtem a nyelvfelismerés, szótövezés, szófaji elemzés (POS tagging), tf-idf és ko-okkurrencia szakirodalmával.

A feladat megoldására elkészült egy UIMA keretrendszerbe illeszkedő feldolgozó lánc, ami Wiki parsolást, szótövezést, szófaji elemzést végez a bemenetén (angol és magyar szövegek), majd az eredményeket Apache Lucene indexekben tárolja a gyors keresés megvalósítására.

Az elkészült UIMA CPE feldolgozó láncok teljesítményét megmértem többszálas környezetben.

Az eredményként előálló indexek a Wikimédia Alapítvány által bizonyos időközönként készült adatbázismentések kötegelt feldolgozásával készülnek. Ez egy egyszeri, viszont nagyon hosszadalmas művelet. Az indexekben lévő adatok frissességét karbantartandó készült egy beolvasó modul a feldolgozó lánchoz, ami a létrejött, vagy módosuló cikkekről a Wikipédia példányok által bejelentésre használt IRC csatornákon keresztül értesül, majd letölti és fel is dolgozza azokat.

Az indexek lehetőséget nyújtanak tf-idf súlyozás meghatározására, több szóból álló kifejezések gyakoriságának kifejezésére, dokumentumhasonlóságon alapuló keresésre. A dokumentumhasonlóság segítségével ajánló modult építettem, ami a hasonló dokumentumokban eltárolt kategória- és sablon-információkat felhasználásra javasolja az elemzett dokumentumhoz.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.