Hjem Personlig finansiering Shuffle-fasen av Hadops MapReduce Application Flow-dummies

Shuffle-fasen av Hadops MapReduce Application Flow-dummies

Video: Thorium. 2025

Video: Thorium. 2025
Anonim

Etter kartfasen og før begynnelsen av Reduce-fasen er en handoff-prosess, kjent som shuffle og sort . Her fremstilles data fra mapperoppgaver og flyttes til noder der reduksjonsoppgaver vil bli kjørt. Når mapper oppgaven er fullført, blir resultatene sortert etter nøkkel, partisjonert hvis det er flere reduksjonsverktøy, og deretter skrevet til disk.

Du kan se dette konseptet i følgende figur, som viser MapReduce-databehandlingsflyten og samspillet med de fysiske komponentene i Hadoop-klyngen. (En rask notat: Data i minnet representeres av hvite firkanter, og data lagret på disk er representert av grå firkanter.)

For å øke hastigheten på den generelle MapReduce-prosessen, flyttes dataene øyeblikkelig til reduksjonsoppgaverens noder for å unngå en flom av nettverksaktivitet når den endelige mapperoppgaven fullfører sitt arbeid. Denne overføringen skjer mens mapper-oppgaven kjører, da utgangene for hver plate - husk - lagres i minnet av en ventende reduksjonsoppgave. (Du kan konfigurere om dette skjer - eller ikke skjer - og også antall tråder involvert.)

Husk at selv om en reduksjonsoppgave kan ha størsteparten av mapperoppgaveens utgang, kan oppgavens behandling ikke starte før alle mapperoppgaver er ferdig.

For å unngå scenarier der ytelsen til en MapReduce-jobb hindres av en svingende mapperoppgave som kjører på en dårlig slaver node, bruker MapReduce-rammen et konsept som heter spekulativ utførelse .

Hvis noen mapperoppgaver kjører langsommere enn det som anses rimelig, vil Application Master gjore dupliserte oppgaver (i Hadoop 1, gjør JobTracker dette). Uansett hvilken oppgave først ferdig - duplikatet eller originalen - blir resultatene lagret på disk, og den andre oppgaven blir drept. Hvis du overvåker jobbene dine nøye og lurer på hvorfor det er flere mapperoppgaver som kjører enn du forventer, er dette en sannsynlig grunn.

Utgangen fra mapper oppgavene er ikke skrevet til HDFS, men heller til lokal disk på slave node der mapper oppgaven ble kjørt. Som sådan er det ikke replisert over Hadoop-klyngen.

Bortsett fra å komprimere utgangen, kan du potensielt øke ytelsen ved å kjøre en kombinatoroppgave. Denne enkle taktikken, som vises her, innebærer å utføre en lokal reduksjon av utdataene for individuelle mapper-oppgaver.

I de fleste tilfeller er det ikke nødvendig med ekstra programmering, da du kan fortelle at systemet bruker reduksjonsfunksjonen. Hvis du ikke bruker reduksjonsfunksjonen din, må du sørge for at kombinasjonsfunksjonens utgang er identisk med reduksjonsfunksjonen.

Det er opp til MapReduce-rammeverket om kombinasjonsfunksjonen må kjøres en gang, flere ganger eller aldri, så det er kritisk at kombinatorens kode sikrer at de endelige resultatene ikke påvirkes av flere løp. Kjører kombinatoren kan gi en ytelsesfordel ved å redusere mengden mellomliggende data som ellers måtte overføres over nettverket.

Dette reduserer også mengden behandling som reduksjonsoppgaver skulle trenge. Du kjører en ekstra oppgave her, så det er mulig at en ytelsesgevinst er ubetydelig eller kan til og med resultere i dårligere ytelse. Kilometertrykket kan variere, så test dette nøye.

Etter at alle resultatene av mapper oppgavene er kopiert til reduksjonsoppgaver nodene, blir disse filene slått sammen og sortert.

Shuffle-fasen av Hadops MapReduce Application Flow-dummies

Redaktørens valg

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

GED Science test vil stille spørsmål relatert til beskrivende statistikk. Du kan ofte oppsummere en samling av data (fra et eksperiment, observasjoner eller undersøkelser, for eksempel) ved å bruke beskrivende statistikk, tall som brukes til å oppsummere og analysere dataene og trekke konklusjoner fra det. Beskrivende statistikk for en samling av data inkluderer følgende: Frekvens: ...

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Bruk av bevis for å forutsi utfall er en nødvendig ferdighet for GED Science-testen. De største fordelene med vitenskapelige studier kan ofte tilskrives det faktum at deres konklusjoner gjør det mulig for folk å forutsi utfall. (Du vil sikkert ønske vitenskap kan hjelpe deg med å forutsi utfallet ditt på prøve!) Du er vitne til vitenskap i handling hver dag ...

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

GED Social Studies test vil stille spørsmål som krever at du bestemmer troverdigheten til en forfatter. Det er ikke alltid lett å vurdere om en forfatter er troverdig basert på informasjonen som er gitt i en skriftlig oversikt og referansen, men du kan hente spor ved å nøye undersøke følgende områder: Forfatterens ...

Redaktørens valg

Hva skjer i QuickBooks 2013 Setup? - dummies

Hva skjer i QuickBooks 2013 Setup? - dummies

Etter at du har installert QuickBooks 2013, kjører du en skjermveiviser for å sette opp QuickBooks for firmaets regnskap. Klart, denne skjermveiviseren kalles QuickBooks Setup. Når du kjører QuickBooks Setup, gir du ganske mye informasjon til QuickBooks. Som en praktisk sak krever oppsettet og oppsettet etter oppsettet at du har ...

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Når du jobber med betalbar betaling i QuickBooks 2013, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter i QuickBooks 2013 Vendor Center-vinduet viser en liste over leverandører og detaljerte ...

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Når du jobber med betalbar betaling i QuickBooks 2014, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter Vendor Center-vinduet viser en liste over leverandører og detaljert leverandørinformasjon for ...