Hjem Personlig finansiering Pig Latin Application Flow i Hadoop - dummies

Pig Latin Application Flow i Hadoop - dummies

Video: Pig Latin Data Model 2025

Video: Pig Latin Data Model 2025
Anonim

Pig Latin er et dataflow -sprog hvor du definerer en datastrøm og en rekke transformasjoner som brukes på dataene som det flyter gjennom søknaden din. Dette står i kontrast til et kontrollflyt språk (som C eller Java), der du skriver en rekke instruksjoner.

I kontrollflowsspråk bruker du konstruksjoner som looper og betinget logikk (som en if-setning). Du finner ikke løkker og om uttalelser i gris latin.

Hvis du trenger litt overbevisende om at det å jobbe med gris er en betydelig enklere rekke enn å måtte skrive Kart og Redusere programmer, starter du med å se på noen ekte gris-syntaks:

A = LOAD 'data_file. tekst';. B = GRUPPE …; … C = FILTER …;. DUMP B;. Lagre c i 'resultater';

Noen av teksten i dette eksemplet ser faktisk ut som engelsk, ikke sant? Ikke for skummelt, i hvert fall på dette punktet. Ser på hver linje i sin tur, kan du se grunnflyten til et grisprogram. (Merk at denne koden enten kan være en del av et skript eller utgitt på det interaktive skallet som kalles Grunt.)

  1. Last: Du laster først (LOAD) dataene du vil manipulere.

    Som i en typisk MapReduce-jobb, lagres dataene i HDFS. For et grisprogram for å få tilgang til dataene, forteller du først hvilken fil eller filer som skal brukes. For den oppgaven bruker du kommandoen LOAD 'data_file'.

    Her kan 'data_file' spesifisere enten en HDFS-fil eller en katalog. Hvis en katalog er spesifisert, lastes alle filer i katalogen inn i programmet.

    Hvis dataene er lagret i et filformat som ikke er nativt tilgjengelig for gris, kan du eventuelt legge til USING-funksjonen i LOAD-setningen for å angi en brukerdefinert funksjon som kan leses inn (og tolke) dataene.

  2. Transform: Du kjører dataene gjennom et sett med transformasjoner som, langt under hetten og langt fjernet fra alt du må bekymre deg om, oversettes til et sett med kart- og reduksjonsoppgaver.

    Transformasjonslogikken er der all data manipulering skjer. Her kan du FILTER ut rader som ikke er av interesse, Kombinere to sett med datafiler, GROUP-data for å bygge aggregasjoner, ORDER-resultater, og gjør mye, mye mer.

  3. Dump: Du dumper (DUMP) resultatene til skjermen

    eller

    Store (STORE) resultatene i en fil et sted.

    Du vil vanligvis bruke DUMP-kommandoen til å sende utgangen til skjermen når du feilsøker programmene dine. Når programmet går i produksjon, endrer du bare DUMP-anropet til en STORE-samtale, slik at eventuelle resultater fra å kjøre programmene dine, lagres i en fil for videre behandling eller analyse.

Pig Latin Application Flow i Hadoop - dummies

Redaktørens valg

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

GED Science test vil stille spørsmål relatert til beskrivende statistikk. Du kan ofte oppsummere en samling av data (fra et eksperiment, observasjoner eller undersøkelser, for eksempel) ved å bruke beskrivende statistikk, tall som brukes til å oppsummere og analysere dataene og trekke konklusjoner fra det. Beskrivende statistikk for en samling av data inkluderer følgende: Frekvens: ...

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Bruk av bevis for å forutsi utfall er en nødvendig ferdighet for GED Science-testen. De største fordelene med vitenskapelige studier kan ofte tilskrives det faktum at deres konklusjoner gjør det mulig for folk å forutsi utfall. (Du vil sikkert ønske vitenskap kan hjelpe deg med å forutsi utfallet ditt på prøve!) Du er vitne til vitenskap i handling hver dag ...

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

GED Social Studies test vil stille spørsmål som krever at du bestemmer troverdigheten til en forfatter. Det er ikke alltid lett å vurdere om en forfatter er troverdig basert på informasjonen som er gitt i en skriftlig oversikt og referansen, men du kan hente spor ved å nøye undersøke følgende områder: Forfatterens ...

Redaktørens valg

Hva skjer i QuickBooks 2013 Setup? - dummies

Hva skjer i QuickBooks 2013 Setup? - dummies

Etter at du har installert QuickBooks 2013, kjører du en skjermveiviser for å sette opp QuickBooks for firmaets regnskap. Klart, denne skjermveiviseren kalles QuickBooks Setup. Når du kjører QuickBooks Setup, gir du ganske mye informasjon til QuickBooks. Som en praktisk sak krever oppsettet og oppsettet etter oppsettet at du har ...

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Når du jobber med betalbar betaling i QuickBooks 2013, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter i QuickBooks 2013 Vendor Center-vinduet viser en liste over leverandører og detaljerte ...

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Når du jobber med betalbar betaling i QuickBooks 2014, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter Vendor Center-vinduet viser en liste over leverandører og detaljert leverandørinformasjon for ...