Site reliability engineering vizsgálata cloud rendszerekben

OData támogatás
Konzulens:
Tóth László István
Hálózati Rendszerek és Szolgáltatások Tanszék

Az utóbbi években rohamosan fejlődnek a minket kiszolgáló alkalmazások, egyre nagyobb rendelkezésre állást biztosítanak, amelyek további növekedéséért egyre több ember dolgozik. Dolgozatomban szeretném bemutatni miért szükséges nagyvállalati környezetben az egyes szolgáltatások monitorozása a magasabb SLA szint eléréséhez. Több, a piacon jelenleg fellelhető monitorozó rendszert fogok bemutatni, mint például a Nagiost, OpTiert, Zabbixot, Munint, SolarWindst és Pingdomot.

Az általam választott feladat egy honlap monitorozása. Az alkalmazás azt ellenőrzi, hogy ez a site elérhető-e, illetve mennyi az ehhez szükséges válaszidő. Amennyiben a honlap nem elérhető, olyan riasztást ad, hogy abból következtetni lehessen a hiba okára. A cél, hogy az esetlegesen fellépő hibákról hamarabb tudomást szerezzünk, mint az ügyfél, illetve még azelőtt javítva legyenek, hogy ezeket észlelné. Ehhez szükséges a proaktív monitorozásra alkalmas környezet felkonfigurálása is, ami elsődlegesen nem a hibák javítására, hanem azok megelőzésére fókuszál. A megvalósításhoz a Nagios ingyenes verzióját választottam, mivel az több, előre elkészített pluginnal rendelkezik. Ezeket a checkeket továbbiakkal egészítettük ki, valamint az E2E ellenőrzéseket Pingdomban végeztük el, amelyek eredményeit a Nagios kérdezte le és jelenítette meg.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.