Osztályozási feladatok nagyméretű hálózatokon

OData támogatás
Konzulens:
Dr. Buza Krisztián Antal
Számítástudományi és Információelméleti Tanszék

Komplex hálózatok az élet minden területén jelen vannak. Az utóbbi évtizedben számos különböző tudományterületen tanulmányozták valós nagyméretű hálózatok felépítését és dinamikáját (fizika, társadalomtudományok, számításelmélet, molekuláris biológia vagy éppen neurológia).

A kiemelkedő kutatási fókusz mellett a komplex hálózatok elterjedtek az üzleti intelligencia problémák körében is. Mára a telekommunikációs ügyfél-lemorzsolódás előrejelzések, a banki csalásfelderítések vagy éppen az online reklámoptimalizálás nélkülözhetetlen eszköze a hálózatkutatás.

A 2013-as KDD verseny feladatát a Microsoft Academic Search biztosította. A versenyzők feladata meghatározni, hogy egy szerzőhöz rendelt cikkek közül melyekt írta ténylegesen ő. A hatákony keresés a modern kutatás elengedhetetlen feltétele, a kutatáshoz megbízható információra van szükség.

A MAS adatbázisa több mint 19 millió szerző 50 millió cikkét tartalmazza, így a feladat tekinthető nagyméretű páros gráfon történő élosztályozásnak.

A beluga&razgon&ivo csapat kapitányaként ismertetem a versenyre adott megoldásunkat, melynek 0.976-os Mean Average Precision értékével a tizenegyedik helyet értük el a teszhalmazon. Bár a CRISP-DM módszertanát követem, elsősorban az adathalmaz megismerésére, az adatok előkészítésére és a modellezés lépéseire koncentrálok.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.