Elosztott fájlrendszer Hadoop környezetben törlő kódolás támogatással

OData támogatás
Konzulens:
Dr. Ekler Péter
Automatizálási és Alkalmazott Informatikai Tanszék

Manapság a feltörekvő cégek sikerének eléréséhez nagymértékben hozzájárulhat a “big data”-val történő hatékony bánásmód. A Netflix például nagyon kifinomult ajánló algoritmusokat használ az ügyfelek igényeinek minél pontosabban történő kielégítéséhez. Az Amazon újonnan nyíló élelmiszerboltjában pedig mesterséges intelligencia és gépi tanulás módszerek segítségével követik, hogy a vásárlók milyen termékeket vesznek le a polcokról, így a fizetés automatikusan, sorban állás nélkül megoldható. A Chan Zuckerberg Biohub célja minden betegség megelőzése/kezelése az évszázad során, amit szintén gépi tanulási algoritmusok segítségével szeretnének megvalósítani.

A legelterjedtebb technológia nagy adathalmazok hatékony elemzésére a Hadoop keretrendszer, melynek egyik fő komponense a fájlrendszere, a Hadoop Distributed File System (HDFS). Elosztott rendszerekben nagyon fontos az adatvesztés elkerülése. A HDFS régen csak replikációt használt hibatűrésre egy Hadoop klaszterben, de a legújabb Hadoop verzióban egy új technika, a törlő kódolás is megvalósításra került keretrendszerként. A törlő kódolás legalább olyan hibatűrést biztosít, mint a replikáció, de sokkal kevesebb tárhelyet igényel. A törlő kódolás az Intel Storage Acceleration Library-t (ISA-L) használva jobban teljesített különböző méréseken, mint a replikáció, így mára már a törlő kódolás a javasolt megoldás a HDFS-ben.

Ez a diplomaterv egy dán startup-pal, a Chocolate Cloud-dal együttműködésben készült el. A munka fő célja egy olyan Hadoop kompatibilis fájlrendszer elkészítése volt, ami a Chocolate Cloud törlő kódoló technológiáját használja. A mérések alapján a Chocolate Cloud technológiája képes felvenni a versenyt az ISA-L könyvtárral, ami a leggyorsabb törlő kódoló technológia jelenleg a piacon.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.