Hjem Personlig finansiering Hadoop Distributed File System (HDFS) for Big Data Projects - dummies

Hadoop Distributed File System (HDFS) for Big Data Projects - dummies

Innholdsfortegnelse:

Video: What is HDFS | Hadoop Distributed File System (HDFS) Introduction | Hadoop Training | Edureka 2024

Video: What is HDFS | Hadoop Distributed File System (HDFS) Introduction | Hadoop Training | Edureka 2024
Anonim

Hadoop Distributed File System er en allsidig, elastisk, klynget tilnærming til å håndtere filer i et stort datamiljø. HDFS er ikke det endelige målet for filer. Det er snarere en datatjeneste som tilbyr et unikt sett med evner som trengs når dataene og hastigheten er høye. Fordi dataene skrives en gang og deretter leses mange ganger etterpå, er HDFS, i stedet for konstant lesing av andre filsystemer, et utmerket valg for å støtte stor dataanalyse.

Store data NameNodes

HDFS fungerer ved å bryte store filer til mindre stykker kalt blokker . Blokkene lagres på data noder, og det er ansvaret for NameNode å vite hvilke blokker på hvilke data noder utgjør hele filen. The NameNode fungerer også som en "trafikkansvarlig", som administrerer all tilgang til filene.

Den komplette samlingen av alle filene i klyngen er noen ganger referert til som filsystem namespace. Det er navnetNodes jobb å administrere dette navneområdet.

Selv om det eksisterer et sterkt forhold mellom NameNode og data noder, opererer de på en "løst koblet" måte. Dette gjør at klyngelementene opptrer dynamisk, og legger til servere etter hvert som etterspørselen øker. I en typisk konfigurasjon finner du en NameNode og muligens en dataknute som kjører på en fysisk server i rack. Andre servere kjører kun datodenoder.

Datoderknuter kommuniserer hverandre, slik at de kan samarbeide under normal filsystemoperasjon. Dette er nødvendig fordi blokkene for en fil sannsynligvis vil bli lagret på flere data noder. Siden NameNode er så kritisk for riktig drift av klyngen, kan og bør det replikeres for å beskytte mot en enkeltpunktssvikt.

Store datodenoder

Datodenoder er ikke smarte, men de er motstandsdyktig. Innenfor HDFS-klyngen repliseres datablokker over flere datodenoder, og tilgang styres av NameNode. Replikasjonsmekanismen er designet for optimal effektivitet når alle knutepunktene samles inn i et stativ. Faktisk bruker NameNode et "rack ID" for å holde oversikt over data noder i klyngen.

Datodenoder gir også "heartbeat" meldinger for å oppdage og sikre tilkobling mellom NameNode og data noder. Når et hjerteslag ikke lenger er til stede, unngår NameNode datodenoden fra klyngen og fortsetter å fungere som om ingenting skjedde. Når hjerterytmen returnerer, blir den lagt til klyngen på en åpen måte med hensyn til brukeren eller applikasjonen.

Dataintegritet er en nøkkelfunksjon. HDFS støtter en rekke funksjoner som er utformet for å gi dataintegritet. Som du kanskje regner med, når filer brytes inn i blokker og distribueres på tvers av forskjellige servere i klyngen, kan enhver variasjon i driften av noe element påvirke dataintegriteten. HDFS bruker transaksjonslogger og kontrollsumvalidering for å sikre integritet over hele klyngen.

Transaksjonslogger holder oversikt over hver operasjon og er effektive i revisjon eller gjenoppbygging av filsystemet hvis noe skulle oppstå.

Kontrollsumvalideringer brukes til å garantere innholdet i filer i HDFS. Når en klient ber om en fil, kan den verifisere innholdet ved å undersøke kontrollsummen. Hvis sjekksummen stemmer, kan filoperasjonen fortsette. Hvis ikke, rapporteres en feil. Checksum-filer er skjult for å unngå å manipulere.

Datodenoder bruker lokale disker på vareserveren for utholdenhet. Alle datablokker lagres lokalt, primært av ytelsesårsaker. Datablokkene replikeres på tvers av flere datodenoder, slik at feilen på en server ikke nødvendigvis korrumperer en fil. Graden av replikering, antall datodenoder og HDFS-navneområdet etableres når klyngen er implementert.

HDFS for store data

HDFS adresserer store data utfordringer ved å bryte filer inn i en relatert samling av mindre blokker. Disse blokkene fordeles mellom data noder i HDFS-klyngen og forvaltes av NameNode. Blokkeringsstørrelser kan konfigureres og er vanligvis 128 megabyte (MB) eller 256 MB, noe som betyr at en 1 GB-fil forbruker åtte 128 MB blokker for de grunnleggende lagringsbehovene.

HDFS er motstandsdyktig, så disse blokkene blir replikert i hele klyngen i tilfelle serverfeil. Hvordan holder HDFS oversikt over alle disse brikkene? Det korte svaret er filsystem metadata .

Metadata er definert som "data om data. "Tenk på HDFS-metadata som en mal for å gi en detaljert beskrivelse av følgende:

  • Når filen ble opprettet, åpnet, endret, slettet og så videre

  • Hvor blokkene av filen er lagret i klyngen < Hvem har rettighetene til å vise eller endre filen? Hvor mange filer er lagret i klyngen? Hvor mange datodenoder finnes i klyngen

  • Plasseringen av transaksjonsloggen for klyngen

  • HDFS Metadata lagres i NameNode, og mens klyngen fungerer, lastes alle metadataene inn i det fysiske minnet til NameNode-serveren. Som du kanskje regner med, jo større er klyngen, desto større er metadatafotavtrykk.

  • Hva gjør en blokkserver nettopp? Sjekk ut følgende liste:

  • Lagrer datablokker i serverens lokale filsystem. HDFS er tilgjengelig på mange forskjellige operativsystemer og oppfører seg uansett om det er Windows, Mac OS eller Linux.

Lagrer metadataene til en blokk i det lokale filsystemet basert på metadatamalen i NameNode.

Utfører periodiske valideringer av filkontrollsummer.

  • Sender vanlige rapporter til NameNode om hvilke blokker som er tilgjengelige for filoperasjoner.

  • Gir metadata og data til kunder på forespørsel. HDFS støtter direkte tilgang til data noder fra klientprogrammer.

  • Videresender data til andre data noder basert på en "pipelining" -modell.

  • Blokkering på data noder er kritisk for data replikering og støtte for data pipelining. HDFS holder en kopi av hver blokk lokalt. HDFS er seriøs om data replikasjon og resiliency.

Hadoop Distributed File System (HDFS) for Big Data Projects - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...