Tracking JobTracker og TaskTracker i Hadoop 1 - dummies

Video: 019 MapReduce Daemons JobTracker and TaskTracker Explained 2025

MapReduce-behandling i Hadoop 1 håndteres av JobTracker og TaskTracker-demonene. JobTracker opprettholder en oversikt over alle tilgjengelige behandlingsressurser i Hadoop-klyngen, og når søknadsforespørsler kommer inn, planlegger og distribuerer de dem til TaskTracker-nodene for utførelse.

Når applikasjoner kjører, mottar JobTracker statusoppdateringer fra TaskTracker-nodene for å spore deres fremgang og, om nødvendig, koordinere håndteringen av eventuelle feil. JobTracker må kjøre på en masterknute i Hadoop-klyngen, da den koordinerer gjennomføringen av alle MapReduce-applikasjoner i klyngen, så det er en misjonskritisk tjeneste.

En forekomst av TaskTracker-demonen kjører på hver slave node i Hadoop-klyngen, noe som betyr at hver slave node har en tjeneste som binder den til behandlingen (TaskTracker) og lagringen (DataNode), som gjør at Hadoop kan være et distribuert system.

Som en slaveprosess mottar TaskTracker behandlingsforespørsler fra JobTracker. Hovedansvaret er å spore utførelsen av MapReduce arbeidsbelastninger som skjer lokalt på slave node og å sende statusoppdateringer til JobTracker.

TaskTrackers administrerer behandlingsressursene på hver slave node i form av behandlingsspor - sporene som er definert for kartoppgaver og reduserer oppgavene, for å være nøyaktige. Det totale antall kart og redusere sporene angir hvor mange kart og redusere oppgaver som kan utføres en gang på slave node.

Når det gjelder å stille inn en Hadoop-klynge, er det viktig å sette det optimale antall kart og redusere spor. Antall spor skal nøye konfigureres basert på ledig minne, disk og CPU ressurser på hver slave node. Minne er den mest kritiske av disse tre ressursene fra et ytelsesperspektiv. Som sådan må det totale antallet oppgavespor balanseres med maksimal mengde minne som tildeles Java-bunkeformatet.

Husk at hvert kart og redusere oppgaven gir sin egen Java virtuelle maskin (JVM), og at bunken representerer mengden minne som er tildelt for hver JVM. Forholdet mellom kartspor for å redusere spor er også et viktig hensyn.

Hvis du for eksempel har for mange kartspor og ikke nok reduserer spor for arbeidsbelastningene, vil kartsporene ha en tendens til å ligge tomgang, mens jobbene dine venter på å redusere sporene for å bli tilgjengelige.

Spesifikke sett med spor er definert for kartoppgaver og reduserer oppgaver fordi de bruker databehandlingsressurser ganske annerledes.Kartoppgaver er tildelt basert på datalokalitet, og de er avhengige av disk I / O og CPU. Redusere oppgaver er tildelt basert på tilgjengelighet, ikke på lokalitet, og de er sterkt avhengige av nettverksbåndbredden fordi de må motta utdata fra kartoppgaver.