Optikai karakterfelismerés intelligens mérőóra leolvasáshoz

OData támogatás
Konzulens:
Dr. Szűcs Gábor
Távközlési és Médiainformatikai Tanszék

Az utóbbi évek egyik meghatározó tudományága a mesterséges intelligencia, aminek segítségével egyre több területen vagyunk képesek korábban kézzel végzett feladatok megoldását automatizált, vagy részben automatizált megoldásokra cserélni.

E terület egyik legjelentősebb vívmánya az OCR (Optikai karakterfelismerés) technológia, amelynek segítségével optikai karakterek felismerése lehetséges képekről. Az egyik legismertebb OCR motor a Tesseract, amely egybefüggő karakterek felismerésére a legalkalmasabb.

A szakdolgozatom keretein belül egy olyan képfeldolgozásra alkalmas rendszert építettem, amely képes gázórákról készített képeken detektálni és kivágni a mérőóra állásához tartozó számjegyeket, valamint az így kapott számjegyeket egy neurális háló alapó osztályozóval osztályozni. Ehhez egy olyan algoritmus létrehozására volt szükség, amely képes a mérőóra állásához tartozó számjegyeket körülvevő téglalapok automatikus azonosítására. Mindemellett, a gázórán található gyári szám és a vonalkódhoz (amennyiben tartalmaz vonalkódot) tartozó karaktersorozat felismerésére is képes.

A számjegyek osztályozására létrehozott modellt az MNIST adatbázis segítségével tanítottam, amely a gázórák állásához hasonló számjegyeket tartalmaz az egyes rekordokhoz tartozó osztálycímkével. A tesztelést önállóan gyűjtött gázórákon végeztem, részfeladatonként több fázisban.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.