Selejtek előrejelzése ipari környezetben gépi tanulási módszerekkel

OData támogatás
Konzulens:
Gáspár Csaba
Távközlési és Médiainformatikai Tanszék

Napjainkban egyre több helyen alkalmazunk adatbázisokat az adatok eltárolására. Nem csoda, hogy megszületett az igény, hogy ezekből az adatbázisokból összefüggéseket, új és hasznos információkat nyerjünk ki különböző gépi tanulási és statisztikai módszerek segítségével. Ennek is köszönheti ez a fiatalt tudományág, az adatbányászat a népszerűségét.

Szakdolgozatom témáját egy adatelemzési verseny adta, ami egy komplex adatbányászati projekt, amely tartalmazza a teljes folyamatot az adatok bejárásától egészen a tanuló modellek által elkészített eredmények kiértékeléséig. A versenyt az adatelemzési versenyeket tartó, Kaggle.com-on írták ki, amelyhez a német Bosch biztosította az adatokat. A verseny célja, hogy az adatokból a versenyzők meghatározzák, hogy az adott termék selejtes lesz-e vagy sem. A biztosított adatokat ipari környezetben, a gyártósor mellett rögzítették és bocsájtották a versenyben résztvevők számára annak érdekében, hogy a hibás termékek minél hamarabb kiszűrhetők legyenek, ezzel csökkentve az alkatrészek elkészítési költségét.

Dolgozatomban részletesen kifejtem az adatbányászati projekt megoldásának a menetét, a feladat logikai megoldását, az adatok megismerését, kezelését, a modellezést illetve az elkészített modellek eredményeinek kiértékelésének a menetét. Ezenfelül nagy vonalakban bemutatom a Python-t, a fejlesztőkörnyezetet, amivel a problémát megoldó programot fejlesztettem, illetve az általam használt könyvtárakat, csomagokat.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.