E-mail postafiók adatbányászati elemzése

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

Az adatbányászat korunk egyik leggyorsabban fejlődő informatikai területe. Az adatok mennyiségének rohamos növekedése egyre inkább kívánatossá teszi az automatizált feldolgozást és összefüggés-feltárást a nagyméretű adatbázisokon. Ennél is bonyolultabb az interneten fellelhető számtalan szöveges dokumentum dinamikus feldolgozása, elemzése. Az emberi nyelven íródott adatok gépi nyelvre fordítása, összefüggéseik megtartása, majd e nagyméretű adathalmazok elemzése a számítástechnika egyik legjobban kutatott területe. Az adatbányászat és szövegbányászat együttműködve tárja fel az összefüggéseket.

Szakdolgozatom keretein belül arra a kérdésre kerestem a választ, hogy vajon van-e összefüggés egy adott egyén elektronikus levelezésében egy témához kapcsolódó levelek leírói, és egy adott felhasználó válaszideje között? A kérdésre adatbányászati, és szövegbányászati elemző módszerek segítségével kerestem a választ.

A feladat során létrehoztam egy saját fejlesztésű kezdetleges IMAP levelezőklienst. Az ezzel letöltött levelezéseket egy másik, saját fejlesztésű programmal elemeztem, statisztikát készítettem, különböző előkészítési eljárások segítségével összeállítottam a kimutatás céljainak megfelelő adathalmazt.

A kapott adathalmazon Rapidminer segítségével különböző adatbányászati módszereket teszteltem, hasonlítottam össze. Kutatásom során a legjobb hatásfokú osztályozási algoritmust kerestem. Munkám során betekintést nyertem az adatbányászat és szövegbányászat területeire.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.