Természetes nyelvű szövegek kategorizálása adatbányászati eszközökkel

OData támogatás
Konzulens:
Dr. Dudás Ákos
Automatizálási és Alkalmazott Informatikai Tanszék

Ezen dokumentum során a dokumentumok írójuk szerinti osztályozásával fogok foglalkozni.

Először az alap adatbányászati eszközöket ismertetem a csoportosításból kiindulva. Bemutatom a valószínűség alapú csoportosítás leggyakoribb modelljét a topic-model-t, majd ennek egy megvalósítását ismertetem a Latent Dirichlet Allocation algoritmust.

Ezek után ismertetem az osztályozást, mint adatbányászati eszközt. Bemutatom az egyik gyakran felhasznált osztályozó algoritmust, a Naiv Bayes algoritmust. Ismertetem ezen algoritmus modelljének felépítését és működését. Majd a Naiv Bayes algoritmus továbbfejlesztéséhez felhasználom és bemutatom az Expectation-Maximization algoritmust, mellyel pontosabb eredményeket lehet elérni.

Emellett elméleti betekintést adok a szövegosztályozásban felhasznált specifikus megoldásokba, például dimenziócsökkentés, szemantikus mezők használata, szótövezés. Ezen technológiák jelentőségét online újság cikkeken alkalmazott osztályozás segítségével bemutatom, és hatásukat részletesen elemzem.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.