Párok illesztése és keresése szöveges adatbázisokban

OData támogatás
Konzulens:
Dr. Szűcs Gábor
Távközlési és Médiainformatikai Tanszék

Az adatok feldolgozása napjainkban egyre nagyobb teret hódít, legyen szó következtetések levonásáról, információ kinyeréséről vagy akár redundancia megszüntetéséről. A strukturált adatok feldolgozása mostanra egyszerű feladat a számítógépek számára, viszont a strukturálatlan szöveg feldolgozása még mindig tud nehézségeket okozni.

Munkám során szabadszöveges adathalmazokat vizsgáltam, a feladatot két részre bontottam, az első részében egy dalszöveg adathalmazhoz készítettem egy osztályozó modellt, mely szövegbányászati eszközökkel feldolgozott dalszövegekhez hozzárendeli az előadót. A feladat másik része pedig két adathalmaz: tőzsdei nevek és rövidítéseik, valamint a népszerű Quora oldal kérdései, ahol mindkét esetben párokba állítva őket kell a modellnek eldöntenie, hogy egyezik-e a jelentésük vagy sem. Munkám során különböző eszközöket használtam, többek között RapidMiner Studio-t, RStudio-t, PyCharm-ot és Microsoft Excel-t. Az első fejezetben az adat- és szövegbányászat alapjait, valamint az osztályozás elméletét mutatom be, a másodikban az adatok előkészítését, majd a modellt magát, végezetül az eredményeim összefoglalása olvasható.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.