Mély tanulás alapú 3D objektum detektálás pontfelhőben

OData támogatás
Konzulens:
Dr. Gyires-Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

Az objektumfelismerés az autonóm vezetés egyik legfontosabb feladata. Az autonóm autók több szenzorral vannak felszerelve, például kamerával és LiDAR-ral. A 2D-s objektumfelismerő hálózatok a kamera képe alapján határozzák meg az objektum helyét. Bár a konvolúciós neurális hálózatok a jelenlegi csúcstechnológia a kép alapú objektumok észleléséhez, a ritka szenzoradatok miatt a 3D-s pontfelhőn nem működnek jól, ezért új technikákra van szükség. A 3D-s objektum-észlelő hálózatok a távolságérzékelő által biztosított 3D-s pontfelhőt dolgozzák fel. Néhány hálózat egyesíti a képi adatból és a pontfelhő alapú adatból kinyert jellemzőket. A dolgozatban részletesebben a LiDAR-alapú hálózatokat ismertettem, mint például a VoxelNet. A VoxelNet egy end-to-end hálózat, amely egyesíti a jellemzők kivonását és az objektumokat körülvevő dobozok predikcióját. Ez a hálózat közvetlenül a 3D-s pontfelhő alapú adatokat dolgozza fel. A VoxelNet felosztja a 3D-s teret voxelekre, majd minden egyes voxelt átalakítja egy mátrix-reprezentációra, amely a voxelen belüli pont-interakciót enkódolja. Továbbá a konvolúciós neurális hálózatok végzik a komplexebb jellemzők kivonását és a 3D-s objektumokat körülvevő dobozok generálását. A VoxelNet implementációja a KITTI adatbázison van betanítva. A hálózat által előrejelzett értékéket kiértékeljük. Az objektum detektáláshoz tartozó fő teljesítményértékelési metrika az átlagpontosság.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.