Weboldal osztályozás adatbányászati módszerekkel

OData támogatás
Konzulens:
Nagy Gábor
Távközlési és Médiainformatikai Tanszék

Egy klasszikus adatbányászati ​​feladat a szövegek elemzésére és osztályozása ami alatt a különböző kategóriába sorolást értjük. Az internet folyamatosan növekvő szöveges információk milliárdjait tartalmazza, amelyek egy ilyen osztályozás forrásává válhatnak. A hallgató feladata lesz egy osztályozó létrehozása, amely képes azonosítani a weboldalakat a weboldalon vagy egyéb forrásokból származó szöveges vagy egyéb adatok alapján.

A dolgozat célja egy többkategóriás osztályozó építése, amely az oldalakról összegyűjtött szövegek alapján képes osztályozni a weblapokat. A dolgozat első részében vázolom az előfeldolgozási lépéseket, úgy, mint adatgyűjtés, adatfeldolgozás és adattisztítás. Ennek a résznek a végén előáll a kész adatbázis. A dolgozat második részében bemutatok néhány osztályozó algoritmust, úgy, mint Naive Bayes, Random Forest, Gradient Boosting és Szupportvektor-gépek. Valamint vázolok néhány mértéket is, amellyel az osztályozási módszerek hatékonyságát lehet mérni. Végül az elkészült adatbázisomra alkalmazom a megismert osztályozókat és kiértékelem az általuk kapott eredményeket, kiválasztom azt az algoritmust, amely a legjobb eredményt adta erre a feladatra.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.