Repeterende datablokker i Hadoop Distributed File System - dummies

Video: 2 havo/vwo - Repeterende breuk 2025

Hadoop Distributed File System (HDFS) er designet for å lagre data på billig og mer upålitelig maskinvare. Billig har en attraktiv ring til den, men det gir anledning til bekymringer om påliteligheten til systemet som helhet, spesielt for å sikre høy tilgjengelighet av dataene.

Planlegger seg for katastrofe, hjernen bak HDFS tok beslutningen om å sette opp systemet slik at det ville lagre tre (telle tre) kopier av hver datablokke.

HDFS forutsetter at hver harddisk og hver slave node er iboende upålitelig, så tydelig må det tas hensyn til hvor de tre kopiene av datablokker lagres.

Figuren viser hvordan datablokker fra den tidligere filen er striped over Hadoop-klyngen - noe som betyr at de er jevnt fordelt mellom slave noder, slik at en kopi av blokken fortsatt vil være tilgjengelig uansett disk, knutepunkt eller rackfeil.

Den viste filen har fem datablokker, merket a, b, c, d og e. Hvis du ser nærmere, kan du se at denne klyngen består av to reoler med to noder, og at de tre eksemplarene av hver datablok har blitt spredt ut over de forskjellige slave noder.

Hver komponent i Hadoop-klyngen er sett på som et potensielt feilpunkt, og når HDFS lagrer replikaene til de opprinnelige blokkene over Hadoop-klyngen, forsøker den å sikre at blokkreplikatene lagres i forskjellige feilpunkter.

For eksempel, ta en titt på Blokk A. Da det var nødvendig å lagre, ble Slave Node 3 valgt, og den første kopien av Blokk A ble lagret der. For flere racksystemer bestemmer HDFS at de resterende to eksemplarer av blokk A må lagres i en annen rack. Så blir den andre kopien av blokk A lagret på slave node 1.

Den endelige kopien kan lagres på samme rack som den andre kopien, men ikke på samme slave node, slik at den blir lagret på slave node 2.