Hjem Personlig finansiering Splitter i Hadops MapReduce - dummies

Splitter i Hadops MapReduce - dummies

Video: 03. Inndata skjema Joomla DB 2025

Video: 03. Inndata skjema Joomla DB 2025
Anonim

måten HDFS er satt opp, bryter ned svært store filer i store blokker (for eksempel måling 128 MB) og lagrer tre eksemplarer av disse blokkene på forskjellige noder i klyngen. HDFS har ingen bevissthet om innholdet i disse filene.

I YARN, når en MapReduce-jobb startes, vil ressursbehandleren (klyngen ressursstyring og jobb planlegging anlegget) Oppretter en Application Master daemon for å ta vare på livssyklusen til jobben. (I Hadoop 1 overvåket JobTracker individuelle jobber, samt håndtering av jobbplanlegging og klyngeressursforvaltning.)

> En av de første tingene som Application Master gjør, er å avgjøre hvilke filblokker som er nødvendige for behandling. Application Master ber om detaljer fra NameNode på hvor replikene til de nødvendige datablokker lagres. Ved å bruke posisjonsdataene for filblokkene, Application Master legger forespørsler til ressursen Manager for å få kartoppgaver behandle bestemte blokker på slave noder der de er lagret.

Nøkkelen til effektiv MapReduce-behandling er at data blir behandlet

lokalt - når slappoden er lagret. Før du ser på hvordan datablokker behandles, må du se nærmere på hvordan Hadoop lagrer data. I Hadoop er filene sammensatt av individuelle poster, som i siste instans behandles en etter en ved mapperoppgaver.

Eksempeldatasettet inneholder for eksempel informasjon om fullførte flyreiser i USA mellom 1987 og 2008.

For å laste ned prøvedatasettet åpner du Firefox-nettleseren fra VM, og går til dataexpo-siden.

Du har en stor fil for hvert år, og i hver enkelt fil representerer hver enkelt linje et enkelt fly. Med andre ord representerer én linje en post. Husk at blokkstørrelsen for Hadoop-klyngen er 64 MB, noe som betyr at de lette datafilene er brutt i biter på nøyaktig 64 MB.

Ser du problemet? Hvis hver kartoppgave behandler alle poster i en bestemt datablokk, hva skjer med de postene som spenner over blokkgrenser? Filblokkene er nøyaktig 64 MB (eller hva du angir blokkstørrelsen skal være), og fordi HDFS ikke har noen oppfatning av hva som er inne i filblokkene, kan det ikke spåre når en plate kan spole over i en annen blokk.

For å løse dette problemet bruker Hadoop en logisk representasjon av dataene som er lagret i filblokker, kjent som

inngangssplittelser . Når en MapReduce-jobbklient beregner inngangssplittelsene, viser den hvor den første hele posten i en blokk begynner og hvor den siste posten i blokken slutter. I tilfeller der den siste posten i en blokk er ufullstendig, inneholder inngangssplitten plasseringsinformasjon for neste blokk og byteforskyvningen av dataene som trengs for å fullføre posten.

Figuren viser dette forholdet mellom datablokker og inngangssplitt.

Du kan konfigurere Application Master daemon (eller JobTracker, hvis du er i Hadoop 1) for å beregne inngangssplittene i stedet for jobbklienten, noe som ville være raskere for jobber som behandler et stort antall datablokker.

MapReduce databehandling er drevet av dette konseptet av input splits. Antall innspill som beregnes for et bestemt program, bestemmer antall mapperoppgaver. Hver av disse mapper oppgavene er tildelt, når det er mulig, til en slave node der inngangssplitten er lagret. Ressursbehandleren (eller JobTracker, hvis du er i Hadoop 1), gjør sitt beste for å sikre at inngangssplittelser behandles lokalt.

Splitter i Hadops MapReduce - dummies

Redaktørens valg

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

GED Science test vil stille spørsmål relatert til beskrivende statistikk. Du kan ofte oppsummere en samling av data (fra et eksperiment, observasjoner eller undersøkelser, for eksempel) ved å bruke beskrivende statistikk, tall som brukes til å oppsummere og analysere dataene og trekke konklusjoner fra det. Beskrivende statistikk for en samling av data inkluderer følgende: Frekvens: ...

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Bruk av bevis for å forutsi utfall er en nødvendig ferdighet for GED Science-testen. De største fordelene med vitenskapelige studier kan ofte tilskrives det faktum at deres konklusjoner gjør det mulig for folk å forutsi utfall. (Du vil sikkert ønske vitenskap kan hjelpe deg med å forutsi utfallet ditt på prøve!) Du er vitne til vitenskap i handling hver dag ...

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

GED Social Studies test vil stille spørsmål som krever at du bestemmer troverdigheten til en forfatter. Det er ikke alltid lett å vurdere om en forfatter er troverdig basert på informasjonen som er gitt i en skriftlig oversikt og referansen, men du kan hente spor ved å nøye undersøke følgende områder: Forfatterens ...

Redaktørens valg

Hva skjer i QuickBooks 2013 Setup? - dummies

Hva skjer i QuickBooks 2013 Setup? - dummies

Etter at du har installert QuickBooks 2013, kjører du en skjermveiviser for å sette opp QuickBooks for firmaets regnskap. Klart, denne skjermveiviseren kalles QuickBooks Setup. Når du kjører QuickBooks Setup, gir du ganske mye informasjon til QuickBooks. Som en praktisk sak krever oppsettet og oppsettet etter oppsettet at du har ...

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Når du jobber med betalbar betaling i QuickBooks 2013, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter i QuickBooks 2013 Vendor Center-vinduet viser en liste over leverandører og detaljerte ...

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Når du jobber med betalbar betaling i QuickBooks 2014, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter Vendor Center-vinduet viser en liste over leverandører og detaljert leverandørinformasjon for ...