Lokale og distribuerte moduser av løpende grisskript i Hadoop - dummies

Video: Little Big Workshop Tipps Und Tricks (Deutsch-German, many subtitles) Pausenraum Forschung Baupläne 2025

Før du kan kjøre ditt første grisskript i Hadoop, må du ha et håndtak på hvordan grisprogrammer kan pakkes med griserveren.

Gris har to moduser for å kjøre skript:

Lokal modus: Alle skriptene kjøres på en enkelt maskin uten å kreve Hadoop MapReduce og HDFS. Dette kan være nyttig for å utvikle og teste grislogikk. Hvis du bruker et lite sett med data til utvikleren eller teste koden din, kan lokal modus være raskere enn å gå gjennom MapReduce-infrastrukturen.

Lokal modus krever ikke Hadoop. Når du kjører i lokal modus, kjører grisprogrammet i sammenheng med en lokal Java Virtual Machine, og datatilgang er via det lokale filsystemet til en enkelt maskin. Lokal modus er faktisk en lokal simulering av MapReduce i Hadops LocalJobRunner-klasse.
MapReduce-modus (også kjent som Hadoop-modus): Gris utføres på Hadoop-klyngen. I dette tilfellet blir grisskriptet omgjort til en serie MapReduce-jobber som deretter kjører på Hadoop-klyngen.

Hvis du har en terabyte med data som du vil utføre operasjoner på, og du vil utvikle et program interaktivt, kan du snart finne ting som bremser betydelig, og du kan begynne å vokse lagringsplassen din. Lokal modus lar deg arbeide med en delmengde av dataene dine på en mer interaktiv måte, slik at du kan finne ut logikken (og utarbeide feilene) til ditt Pig-program.

Etter at du har satt opp ting som du vil ha dem og operasjonene dine løper jevnt, kan du deretter kjøre skriptet mot det fulle datasettet ved hjelp av MapReduce-modus.