Video: What Happens to Your Body While You Are Having Sex? 2025
For det meste av Hadops historie har MapReduce vært det eneste spillet i byen når det gjelder databehandling. Tilgjengeligheten av MapReduce har vært årsaken til Hadops suksess og samtidig en viktig faktor for å begrense videre adopsjon.
MapReduce gjør det mulig for dyktige programmører å skrive distribuerte applikasjoner uten å måtte bekymre seg for den underliggende distribuerte databehandlingsinfrastrukturen. Dette er en veldig stor sak: Hadoop og MapReduce-rammen håndterer all slags kompleksitet som programutviklere ikke trenger å håndtere.
For eksempel skjer muligheten til å gjennomspeile klyngen gjennomsiktig ved å legge til noder og automatisk feiloverføring av både datalagring og databehandlings-undersystemer, med null innvirkning på applikasjoner.
Den andre siden av mynten her er at selv om MapReduce gjemmer en enorm mengde kompleksitet, har du ikke råd til å glemme hva det er: et grensesnitt for parallell programmering. Dette er en avansert ferdighet - og en barriere for bredere adopsjon. Det er ganske enkelt ikke mange MapReduce programmerere, og ikke alle har evnen til å mestre det.
I Hadops tidlige dager (Hadoop 1 og tidligere), kan du bare kjøre MapReduce-applikasjoner på dine klynger. I Hadoop 2 endret YARN-komponenten alt ved å overta ressursstyring og planlegging fra MapReduce-rammen, og ga et generisk grensesnitt for å lette applikasjoner som kjører på en Hadoop-klynge.
Kort sagt betyr dette at MapReduce nå er bare en av mange applikasjonsrammer du kan bruke til å utvikle og kjøre programmer på Hadoop. Selv om det er sikkert mulig å kjøre programmer ved hjelp av andre rammer på Hadoop, betyr det ikke at vi kan begynne å glemme MapReduce.
MapReduce er for øyeblikket det eneste produksjonsberedte databehandlingsramme som er tilgjengelig for Hadoop. Selv om andre rammer vil bli tilgjengelig, har MapReduce nesten et tiår med modenhet under beltet (med nesten 4, 000 JIRA-problemer fullført, involverer hundrevis av utviklere, hvis du holder orden).
Det er ingen tvil: MapReduce er Hadops mest modne rammeverk for databehandling. I tillegg er det en betydelig mengde MapReduce-kode som nå er i bruk, og det er usannsynlig å gå hvor som helst snart. Lang historie kort: MapReduce er en viktig del av Hadoop-historien.
Apache Hive og Apache Pig-prosjektene er svært populære fordi de er enklere tilgangspunkter for databehandling på Hadoop. For mange problemer, spesielt de typene du kan løse med SQL, er Hive og Pig utrolige verktøy.Men for en bredere oppgave som statistisk behandling eller tekstutvinning, og spesielt for behandling av ustrukturerte data, må du bruke MapReduce.
