Skálázható adatelemzési megoldások idegsejtek kapcsolatainak felderítésére

OData támogatás
Konzulens:
Prekopcsák Zoltán
Távközlési és Médiainformatikai Tanszék

Az idegrendszer rendkívül összetett szerkezettel rendelkezik, ezért megfigyelése is bonyolult problémákat vet fel. Már több tíz éve képesek vagyunk különböző képalkotási módszerekkel felvételeket rögzíteni az idegrendszerről működés közben. Nem rég vált elérhetővé azonban, hogy a detektált jeleknek mind a térbeli, mind az időbeli felbontása elégséges legyen ahhoz, hogy sejtenként egyesével tudjuk megfigyelni az aktivitásokat, úgy hogy az egyes akciós potenciálok is elkülöníthetőek legyenek.

Az így keletkezett adat feldolgozása, összetettsége és mennyisége miatt is nehézkes. Ebben tudnak segítséget nyújtani különböző adatbányászati módszerek. Munkám során kalciumos képalkotásból származó neurális eredetű jelek feldolgozása volt a cél, gépi tanulási algoritmusok használatával. Az egyes idegsejtek aktivitásainak idősorából tudtam következtetéseket levonni a neurális hálóban fennálló kapcsolatokra.

Mivel a kiindulásként használt adat egy részénél rendelkezésemre állt a valóságos kapcsolatok listája, lehetséges volt osztályozó algoritmusok használata.

Az első kihívást, az osztályozáshoz használt jellemzők előállítása jelentette. Ezeket a neuronok aktivitásának idősoraiból lehetett előállítani úgy, hogy azok az egyes idegsejt párok között fennálló kapcsolatok valószínűségét jellemezzék.

Az osztályozáshoz sok algoritmus eredményességét összevetettem. A Random Forest bizonyult a legjobb választásnak, amely egy döntési fák sorozatát használja föl a prediktáláshoz. Háromezer fa tanításával sikerült javítani Antonio Sutera csapatának eredményein, akik egy Kaggle által kiírt versenyen értek el első helyet. A kidolgozott módszer az AUC mérőszámmal mérve 0.94238 pontossággal teljesített.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.