Művészi hatású képek készítése mély tanulás alapon

OData támogatás
Konzulens:
Dr. Gyires-Tóth Bálint Pál
Távközlési és Médiainformatikai Tanszék

A mesterséges intelligencia területei közül az elmúlt években a neurális hálózatok mentek keresztül talán a legnagyobb fejlődésen (deep learning). A grafikus számítási egységek (GPU, Graphical Processing Unit) fejlődése, az algoritmikus fejlesztések és a felhőszolgáltatásokban elérhető óriási számítási kapacitás lehetővé tették, hogy hatékonyan tudjunk dolgozni velük. Neurális hálózatok felhasználásával számos területen sikerült minden eddiginél jobb (és sok esetben az ember címkézésénél is pontosabb) eredményeket elérni: például a kép- és beszédfelismerés, nyelvfeldolgozás, beszédszintézis, idősor-analízis, ajánlórendszerek, valamint a megerősítéses tanulás területén is átütő sikereket értek el az utóbbi években.

A különböző területeken általában speciális hálózatokat használnak; képfeldolgozásban a konvolúciós hálózatok terjedtek el. Ezekkel számos különféle képfeldolgozási feladatot meg lehet oldani: képen és videón objektumok felismerésére, képszegmentációra, képek hibáinak javítására, vagy akár képgenerálásra is használhatók ilyen hálózatok. Bizonyos konvolúciós architektúrák képesek egy képen pixelpontosan meghatározni a rajta levő objektumok helyét. Ilyen hálózatok használhatóak például az önvezető autók kameraképeinek elemzéseihez, ahol nem csak annyit kell eldönteni, hogy van-e valahol másik autó vagy gyalogos a képen, hanem azok pontos helyét is meg kell határozni.

Dolgozatomban ismertetem egy olyan hálózat elkészítését és tanítását, amely képes pixelpontosan meghatározni, hogy az adott képen hol találhatók állatok, és ez alapján képes körbevágni a képről az állatokat, eltávolítva az eredeti hátteret. Ezt felhasználva elkészítettem egy demonstrációs mintarendszert, amellyel művészi hatású, úgynevezett kettős expozíciós (double exposure) képeket lehet készíteni. Ez egy rendkívül kedvelt és népszerű képkészítési eljárás grafikusok és fotósok körében. A kép rendszerint egy figura és egy természeti kép áttűnését jeleníti meg; előbbi lehet állat, emberi arc, vagy egy tetszőleges alak sziluettje. Jelen esetben a képeken egy állat és egy tájkép alkotja a kompozíciót. A dolgozat keretében elkészített megoldásom tetszőleges állatalakot tartalmazó képből és tájképből automatikusan képes kettős expozíciós, művészi hatású képeket generálni.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.