Video: Pig Latin Data Model 2025
Pig Latin er et dataflow -sprog hvor du definerer en datastrøm og en rekke transformasjoner som brukes på dataene som det flyter gjennom søknaden din. Dette står i kontrast til et kontrollflyt språk (som C eller Java), der du skriver en rekke instruksjoner.
I kontrollflowsspråk bruker du konstruksjoner som looper og betinget logikk (som en if-setning). Du finner ikke løkker og om uttalelser i gris latin.
Hvis du trenger litt overbevisende om at det å jobbe med gris er en betydelig enklere rekke enn å måtte skrive Kart og Redusere programmer, starter du med å se på noen ekte gris-syntaks:
A = LOAD 'data_file. tekst';. B = GRUPPE …; … C = FILTER …;. DUMP B;. Lagre c i 'resultater';
Noen av teksten i dette eksemplet ser faktisk ut som engelsk, ikke sant? Ikke for skummelt, i hvert fall på dette punktet. Ser på hver linje i sin tur, kan du se grunnflyten til et grisprogram. (Merk at denne koden enten kan være en del av et skript eller utgitt på det interaktive skallet som kalles Grunt.)
-
Last: Du laster først (LOAD) dataene du vil manipulere.
Som i en typisk MapReduce-jobb, lagres dataene i HDFS. For et grisprogram for å få tilgang til dataene, forteller du først hvilken fil eller filer som skal brukes. For den oppgaven bruker du kommandoen LOAD 'data_file'.
Her kan 'data_file' spesifisere enten en HDFS-fil eller en katalog. Hvis en katalog er spesifisert, lastes alle filer i katalogen inn i programmet.
Hvis dataene er lagret i et filformat som ikke er nativt tilgjengelig for gris, kan du eventuelt legge til USING-funksjonen i LOAD-setningen for å angi en brukerdefinert funksjon som kan leses inn (og tolke) dataene.
-
Transform: Du kjører dataene gjennom et sett med transformasjoner som, langt under hetten og langt fjernet fra alt du må bekymre deg om, oversettes til et sett med kart- og reduksjonsoppgaver.
Transformasjonslogikken er der all data manipulering skjer. Her kan du FILTER ut rader som ikke er av interesse, Kombinere to sett med datafiler, GROUP-data for å bygge aggregasjoner, ORDER-resultater, og gjør mye, mye mer.
-
Dump: Du dumper (DUMP) resultatene til skjermen
eller
Store (STORE) resultatene i en fil et sted.
Du vil vanligvis bruke DUMP-kommandoen til å sende utgangen til skjermen når du feilsøker programmene dine. Når programmet går i produksjon, endrer du bare DUMP-anropet til en STORE-samtale, slik at eventuelle resultater fra å kjøre programmene dine, lagres i en fil for videre behandling eller analyse.
