Szemantikus szegmentáció a BDD100K adathalmazon

OData támogatás
Konzulens:
Budai Ádám
Automatizálási és Alkalmazott Informatikai Tanszék

A járműipar egyre nagyobb hangsúlyt fektet a hatékony önvezető autók kifejlesztésére. Az egyik kulcsfontosságú technológia, amire a vezető nélküli rendszerek támaszkodnak, a Gépi Látás. Ez egy komplex tudományterület, mely lehetővé teszi a számítógépek számára, hogy az emberi látáshoz hasonlóan, képek és videók elemzésével bonyolult összefüggéseket ismerjenek fel.

A mélytanulási algoritmusok lehetővé tették a gépi látás robbanásszerű fejlődését az elmúlt években. Szakdolgozatom témája a gépi látás egy ágazata, a szemantikus szegmentáció. Annak ellenére, hogy a kutatók már számos neurális hálózat modellt kifejlesztettek erre a feladatra, én egy konkrét architektúrát valósítottam meg, nevezetesen a PSPNet-et, amely csak konvolúciós rétegekből épül fel.

A PSPNet tanítására a BDD100K-t használtam, amely a legnagyobb nyilvánosan elérhető, önvezető autók tanítására létrehozott adatbázis.

A konkrét implementáció leírása mellett egyúttal bemutatom a Konvolúciós Neurális hálózatok általános felépítését és működési elvét is, továbbá a témakörben használt legfontosabb alapfogalmakat, mint például a Konvolúciós réteg, a Max Pooling réteg, a detektálási terület, a felméretezés vagy az előrecsatolás.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.