Kjører programmer før Hadoop 2 - dummies - Personlig finansiering 2025

Video: Technology Stacks - Computer Science for Business Leaders 2016 2025

Da mange eksisterende Hadoop-distribusjoner fortsatt ikke bruker Yet Yet Resource Negotiator (YARN), kan du se hvordan Hadoop klarte databehandlingen før dagene av Hadoop 2. Konsentrere seg om rollen som JobTracker master daemons og TaskTracker slave daemons spilte i håndtering av MapReduce behandling.

Hele poenget med å bruke distribuerte systemer er å kunne distribuere databehandlingsressurser i et nettverk av selvstendige datamaskiner på en måte som er feiltolerant, enkel og billig.

I et distribuert system som Hadoop, hvor du har en klynge av selvforsynte kompute noder som jobber parallelt, går en stor kompleksitet i å sikre at alle stykkene samarbeider. Som sådan har disse systemene typisk forskjellige lag for å håndtere forskjellige oppgaver for å støtte parallell databehandling.

Dette konseptet, kjent som separasjon av bekymringer, sikrer at hvis du for eksempel er applikasjonsprogrammereren, trenger du ikke å bekymre deg for de spesifikke detaljene for, for eksempel, failover av kartoppgaver. I Hadoop består systemet av disse fire forskjellige lagene, som vist:

Distribuert lagring: Hadoop Distributed File System (HDFS) er lagringslaget der dataene, foreløpige resultater og sluttresultatene lagres.
Ressurshåndtering: I tillegg til diskplass har alle slave noder i Hadoop-klyngen CPU-sykluser, RAM og nettverksbåndbredde. Et system som Hadoop må kunne pakke ut disse ressursene, slik at flere applikasjoner og brukere kan dele klyngen på forutsigbare og avstembare måter. Denne jobben er utført av JobTracker-demonen.
Behandlingsramme: Prosessflyten MapReduce definerer gjennomføringen av alle applikasjoner i Hadoop 1. Dette begynner med kartfasen; fortsetter med aggregering med blandingen, sortering eller sammenslåing; og slutter med reduksjonsfasen. I Hadoop 1 styres dette også av JobTracker-demonen, med lokal kjøring som forvaltes av TaskTracker-demoner som kjører på slave noder.
Programmeringsgrensesnitt (API): Programmer utviklet for Hadoop 1 måtte kodes ved hjelp av MapReduce API. I Hadoop 1 gir Hive and Pig-prosjektene programmerere med enklere grensesnitt for å skrive Hadoop-applikasjoner, og under hetten kompilerer koden ned til MapReduce.