Hjem Personlig finansiering Splitter i Hadops MapReduce - dummies

Splitter i Hadops MapReduce - dummies

Video: 03. Inndata skjema Joomla DB 2024

Video: 03. Inndata skjema Joomla DB 2024
Anonim

måten HDFS er satt opp, bryter ned svært store filer i store blokker (for eksempel måling 128 MB) og lagrer tre eksemplarer av disse blokkene på forskjellige noder i klyngen. HDFS har ingen bevissthet om innholdet i disse filene.

I YARN, når en MapReduce-jobb startes, vil ressursbehandleren (klyngen ressursstyring og jobb planlegging anlegget) Oppretter en Application Master daemon for å ta vare på livssyklusen til jobben. (I Hadoop 1 overvåket JobTracker individuelle jobber, samt håndtering av jobbplanlegging og klyngeressursforvaltning.)

> En av de første tingene som Application Master gjør, er å avgjøre hvilke filblokker som er nødvendige for behandling. Application Master ber om detaljer fra NameNode på hvor replikene til de nødvendige datablokker lagres. Ved å bruke posisjonsdataene for filblokkene, Application Master legger forespørsler til ressursen Manager for å få kartoppgaver behandle bestemte blokker på slave noder der de er lagret.

Nøkkelen til effektiv MapReduce-behandling er at data blir behandlet

lokalt - når slappoden er lagret. Før du ser på hvordan datablokker behandles, må du se nærmere på hvordan Hadoop lagrer data. I Hadoop er filene sammensatt av individuelle poster, som i siste instans behandles en etter en ved mapperoppgaver.

Eksempeldatasettet inneholder for eksempel informasjon om fullførte flyreiser i USA mellom 1987 og 2008.

For å laste ned prøvedatasettet åpner du Firefox-nettleseren fra VM, og går til dataexpo-siden.

Du har en stor fil for hvert år, og i hver enkelt fil representerer hver enkelt linje et enkelt fly. Med andre ord representerer én linje en post. Husk at blokkstørrelsen for Hadoop-klyngen er 64 MB, noe som betyr at de lette datafilene er brutt i biter på nøyaktig 64 MB.

Ser du problemet? Hvis hver kartoppgave behandler alle poster i en bestemt datablokk, hva skjer med de postene som spenner over blokkgrenser? Filblokkene er nøyaktig 64 MB (eller hva du angir blokkstørrelsen skal være), og fordi HDFS ikke har noen oppfatning av hva som er inne i filblokkene, kan det ikke spåre når en plate kan spole over i en annen blokk.

For å løse dette problemet bruker Hadoop en logisk representasjon av dataene som er lagret i filblokker, kjent som

inngangssplittelser . Når en MapReduce-jobbklient beregner inngangssplittelsene, viser den hvor den første hele posten i en blokk begynner og hvor den siste posten i blokken slutter. I tilfeller der den siste posten i en blokk er ufullstendig, inneholder inngangssplitten plasseringsinformasjon for neste blokk og byteforskyvningen av dataene som trengs for å fullføre posten.

Figuren viser dette forholdet mellom datablokker og inngangssplitt.

Du kan konfigurere Application Master daemon (eller JobTracker, hvis du er i Hadoop 1) for å beregne inngangssplittene i stedet for jobbklienten, noe som ville være raskere for jobber som behandler et stort antall datablokker.

MapReduce databehandling er drevet av dette konseptet av input splits. Antall innspill som beregnes for et bestemt program, bestemmer antall mapperoppgaver. Hver av disse mapper oppgavene er tildelt, når det er mulig, til en slave node der inngangssplitten er lagret. Ressursbehandleren (eller JobTracker, hvis du er i Hadoop 1), gjør sitt beste for å sikre at inngangssplittelser behandles lokalt.

Splitter i Hadops MapReduce - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...