Hjem Personlig finansiering Hadoop Distributed File System (HDFS) for Big Data Projects - dummies

Hadoop Distributed File System (HDFS) for Big Data Projects - dummies

Innholdsfortegnelse:

Video: What is HDFS | Hadoop Distributed File System (HDFS) Introduction | Hadoop Training | Edureka 2025

Video: What is HDFS | Hadoop Distributed File System (HDFS) Introduction | Hadoop Training | Edureka 2025
Anonim

Hadoop Distributed File System er en allsidig, elastisk, klynget tilnærming til å håndtere filer i et stort datamiljø. HDFS er ikke det endelige målet for filer. Det er snarere en datatjeneste som tilbyr et unikt sett med evner som trengs når dataene og hastigheten er høye. Fordi dataene skrives en gang og deretter leses mange ganger etterpå, er HDFS, i stedet for konstant lesing av andre filsystemer, et utmerket valg for å støtte stor dataanalyse.

Store data NameNodes

HDFS fungerer ved å bryte store filer til mindre stykker kalt blokker . Blokkene lagres på data noder, og det er ansvaret for NameNode å vite hvilke blokker på hvilke data noder utgjør hele filen. The NameNode fungerer også som en "trafikkansvarlig", som administrerer all tilgang til filene.

Den komplette samlingen av alle filene i klyngen er noen ganger referert til som filsystem namespace. Det er navnetNodes jobb å administrere dette navneområdet.

Selv om det eksisterer et sterkt forhold mellom NameNode og data noder, opererer de på en "løst koblet" måte. Dette gjør at klyngelementene opptrer dynamisk, og legger til servere etter hvert som etterspørselen øker. I en typisk konfigurasjon finner du en NameNode og muligens en dataknute som kjører på en fysisk server i rack. Andre servere kjører kun datodenoder.

Datoderknuter kommuniserer hverandre, slik at de kan samarbeide under normal filsystemoperasjon. Dette er nødvendig fordi blokkene for en fil sannsynligvis vil bli lagret på flere data noder. Siden NameNode er så kritisk for riktig drift av klyngen, kan og bør det replikeres for å beskytte mot en enkeltpunktssvikt.

Store datodenoder

Datodenoder er ikke smarte, men de er motstandsdyktig. Innenfor HDFS-klyngen repliseres datablokker over flere datodenoder, og tilgang styres av NameNode. Replikasjonsmekanismen er designet for optimal effektivitet når alle knutepunktene samles inn i et stativ. Faktisk bruker NameNode et "rack ID" for å holde oversikt over data noder i klyngen.

Datodenoder gir også "heartbeat" meldinger for å oppdage og sikre tilkobling mellom NameNode og data noder. Når et hjerteslag ikke lenger er til stede, unngår NameNode datodenoden fra klyngen og fortsetter å fungere som om ingenting skjedde. Når hjerterytmen returnerer, blir den lagt til klyngen på en åpen måte med hensyn til brukeren eller applikasjonen.

Dataintegritet er en nøkkelfunksjon. HDFS støtter en rekke funksjoner som er utformet for å gi dataintegritet. Som du kanskje regner med, når filer brytes inn i blokker og distribueres på tvers av forskjellige servere i klyngen, kan enhver variasjon i driften av noe element påvirke dataintegriteten. HDFS bruker transaksjonslogger og kontrollsumvalidering for å sikre integritet over hele klyngen.

Transaksjonslogger holder oversikt over hver operasjon og er effektive i revisjon eller gjenoppbygging av filsystemet hvis noe skulle oppstå.

Kontrollsumvalideringer brukes til å garantere innholdet i filer i HDFS. Når en klient ber om en fil, kan den verifisere innholdet ved å undersøke kontrollsummen. Hvis sjekksummen stemmer, kan filoperasjonen fortsette. Hvis ikke, rapporteres en feil. Checksum-filer er skjult for å unngå å manipulere.

Datodenoder bruker lokale disker på vareserveren for utholdenhet. Alle datablokker lagres lokalt, primært av ytelsesårsaker. Datablokkene replikeres på tvers av flere datodenoder, slik at feilen på en server ikke nødvendigvis korrumperer en fil. Graden av replikering, antall datodenoder og HDFS-navneområdet etableres når klyngen er implementert.

HDFS for store data

HDFS adresserer store data utfordringer ved å bryte filer inn i en relatert samling av mindre blokker. Disse blokkene fordeles mellom data noder i HDFS-klyngen og forvaltes av NameNode. Blokkeringsstørrelser kan konfigureres og er vanligvis 128 megabyte (MB) eller 256 MB, noe som betyr at en 1 GB-fil forbruker åtte 128 MB blokker for de grunnleggende lagringsbehovene.

HDFS er motstandsdyktig, så disse blokkene blir replikert i hele klyngen i tilfelle serverfeil. Hvordan holder HDFS oversikt over alle disse brikkene? Det korte svaret er filsystem metadata .

Metadata er definert som "data om data. "Tenk på HDFS-metadata som en mal for å gi en detaljert beskrivelse av følgende:

  • Når filen ble opprettet, åpnet, endret, slettet og så videre

  • Hvor blokkene av filen er lagret i klyngen < Hvem har rettighetene til å vise eller endre filen? Hvor mange filer er lagret i klyngen? Hvor mange datodenoder finnes i klyngen

  • Plasseringen av transaksjonsloggen for klyngen

  • HDFS Metadata lagres i NameNode, og mens klyngen fungerer, lastes alle metadataene inn i det fysiske minnet til NameNode-serveren. Som du kanskje regner med, jo større er klyngen, desto større er metadatafotavtrykk.

  • Hva gjør en blokkserver nettopp? Sjekk ut følgende liste:

  • Lagrer datablokker i serverens lokale filsystem. HDFS er tilgjengelig på mange forskjellige operativsystemer og oppfører seg uansett om det er Windows, Mac OS eller Linux.

Lagrer metadataene til en blokk i det lokale filsystemet basert på metadatamalen i NameNode.

Utfører periodiske valideringer av filkontrollsummer.

  • Sender vanlige rapporter til NameNode om hvilke blokker som er tilgjengelige for filoperasjoner.

  • Gir metadata og data til kunder på forespørsel. HDFS støtter direkte tilgang til data noder fra klientprogrammer.

  • Videresender data til andre data noder basert på en "pipelining" -modell.

  • Blokkering på data noder er kritisk for data replikering og støtte for data pipelining. HDFS holder en kopi av hver blokk lokalt. HDFS er seriøs om data replikasjon og resiliency.

Hadoop Distributed File System (HDFS) for Big Data Projects - dummies

Redaktørens valg

Hvordan du samler ressurser i Minecraft - dummies

Hvordan du samler ressurser i Minecraft - dummies

Du kan samle ressurser på flere måter for Minecraft-strukturen - noen er mer effektiv enn andre. Her finner du noen forskjellige måter å samle materialer på for din struktur. Du har et par forskjellige alternativer når det gjelder gruvedrift. Hver har sine fordeler og ulemper, så det er opp til ...

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Minecart og skinner er Minecraft-funksjoner ofte brukt til å transportere spillere. Men de kan også utføre mange mekaniske egenskaper bedre enn de vanlige redstone-elementene. Minecarts er enheter som kan rulle raskt langs minecartskinner. De kan svinge, gå opp og ned skråninger, og til og med spore (selv om de lider mye ...

Hvordan bygge din første Minecraft Garden - dummies

Hvordan bygge din første Minecraft Garden - dummies

Se hvordan du oppretter en vakker hage i Minecraft ved å planlegge riktig layout, få en rekke unike planter, og organisere plass.

Redaktørens valg

Markedet ditt mobilnettsted til media - dummies

Markedet ditt mobilnettsted til media - dummies

IPhone og iPad er varme emner i media i disse dager. Når du er ferdig med å designe nettstedet ditt for disse nye medieenhetene, ikke glem å markedsføre dem til tradisjonelle medier. Tiltrekke medieoppmerksomhet til mobilwebområdet ditt er ikke i motsetning til å tiltrekke det til noen annen virksomhet. Trikset er å fortelle et godt ...

Gjør skannede dokumenter søkbare og redigerbare - dummies

Gjør skannede dokumenter søkbare og redigerbare - dummies

Når du skanner et dokument direkte til en PDF-fil, Acrobat fanger all tekst og grafikk på hver side som om de alle var bare ett stort grafisk bilde. Dette er bra så langt det går, bortsett fra at det ikke går veldig langt fordi du ikke kan redigere eller søke i PDF-dokumentet ...

Markedet med SMS-meldinger - dummies

Markedet med SMS-meldinger - dummies

Lengden på SMS- begrenset til 160 tegn, så reklamemeldingen din må være kort og søt. Disse meldingene kan inneholde lenker til nettsteder eller klikk for å ringe meldinger: Du klikker på SMS, slik at telefonen ringer. SMS-kampanjer er mye enklere å håndtere enn ...

Redaktørens valg

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Bruk formlag i Photoshop Creative Suite 5 når målet med designet ditt er å integrere vektormodeller og pikseldata sømløst. Når du har opprettet et formlag, kan du redigere formen, endre fargen eller fjerne laget helt. Rediger en form Som Adobe Illustrator, gir Photoshop både et valg av sti ...

Oppdag Photoshops malerverktøy - dummies

Oppdag Photoshops malerverktøy - dummies

Ingenting i Photoshop CC gir deg mer presis kontroll over fargen i bildet ditt enn ved bruk av blyantpenningen verktøy med en 1-piks pensel. Husk at bildet ditt består av mange småfargede firkanter (piksler), og at fargen på de enkelte firkantene er det som gir utseendet til et tre eller et ...

Forbedre portretter i Photoshop CC - dummier

Forbedre portretter i Photoshop CC - dummier

Forbedre detaljer som å avklare motivets briller i Photoshop CC kan hjelpe bildene dine og portretter ser det mye bedre ut. Whitening tennene er et annet godt triks for å lyse opp bildene dine. Deklarende briller i Photoshop Eyeglasses kan være fotografens mareritt! Refleksjonene fra glass er vanligvis spekulative høydepunkter - det vil si områder av ren ...