Hjem Personlig finansiering Hadoop-baserte landingssonen - dummies

Hadoop-baserte landingssonen - dummies

Video: How To add a Custom Domain On Github Pages 2024

Video: How To add a Custom Domain On Github Pages 2024
Anonim

Når du prøver å finne ut hva et analysemiljø kan se ut i fremtiden, du snubler over mønsteret til Hadoop-baserte landingssone gang på gang. Faktisk er det ikke lenger en futuresorientert diskusjon fordi landingssonen er blitt den måten fremtidsrettede selskaper nå prøver å spare IT-kostnader, og gir en plattform for nyskapende dataanalyse.

Så hva er landingssonen? På det mest grunnleggende nivå er landingssonen bare det sentrale stedet hvor data vil lande i bedriften din - ukentlig utvinning av data fra operative databaser, for eksempel, eller fra systemer som genererer loggfiler. Hadoop er et nyttig lager for å lande data, av disse grunner:

  • Den kan håndtere alle slags data.

  • Det er lett skalerbart.

  • Det er billig.

  • Når du har landet data i Hadoop, har du fleksibilitet til å spørre, analysere eller behandle dataene på en rekke måter.

Dette diagrammet viser bare en del av historien og er på ingen måte fullført. Tross alt må du vite hvordan dataene flytter fra landingssonen til datalageret, og så videre.

Utgangspunktet for diskusjonen om modernisering av et datalager må være hvordan organisasjoner bruker datalager og utfordringene IT-avdelinger står overfor med dem.

I løpet av 1980-tallet begynte bedriftsledere å ha rapporter fra disse relasjonsdataene, når organisasjoner ble gode til å lagre operasjonsinformasjon i relasjonsdatabaser (f.eks. Salgstransaksjoner eller forsyningskjedestatuser). De tidligste relasjonelle butikkene var operasjonelle databaser og ble designet for online transaksjonsbehandling (OLTP), slik at poster kunne settes inn, oppdateres eller slettes så raskt som mulig.

Dette er en upraktisk arkitektur for storskala rapportering og analyse, slik at databaser for relasjonsanalytisk analyseanalyse (ROLAP) ble utviklet for å møte dette behovet. Dette førte til utviklingen av en helt ny type RDBMS: a datalager, som er en egen enhet og lever sammen med en organisasjons operasjonsdatabutikker.

Dette kommer ned til bruk av spesialbyggede verktøy for større effektivitet: Du har operative datalager, som er utviklet for å effektivt behandle transaksjoner og datalager, som er designet for å støtte gjentatt analyse og rapportering.

Datavarehus er under økende stress, av følgende grunner:

  • Økt etterspørsel for å holde lengre perioder med data på nettet.

  • Økt etterspørsel etter behandling av ressurser for å transformere data til bruk i andre varehus og data mars.

  • Økt etterspørsel etter nyskapende analyse, noe som krever at analytikere stiller spørsmål om lagerdata, i tillegg til den vanlige rapporteringen som allerede er gjort. Dette kan medføre betydelig tilleggsbehandling.

I figuren kan du se datalageret som presenteres som den primære ressursen for de ulike analysene som er oppført på høyre side av figuren. Her ser du også konseptet om en landingssone som er representert, hvor Hadoop lagrer data fra en rekke innkommende datakilder.

For å aktivere Hadops landingsson må du sørge for at du kan skrive data fra de ulike datakildene til HDFS. For relasjonsdatabaser, ville en god løsning være å bruke Sqoop.

Men landing av data er bare begynnelsen.

Når du flytter data fra mange kilder til landingssonen, er det et problem du uunngåelig vil trenge på, datakvalitet. Det er vanlig at bedrifter har mange operative databaser hvor nøkkeldetaljer er forskjellige, for eksempel at en kunde kan være kjent som "D. deRoos "i en database, og" Dirk deRoos "i en annen.

Et annet kvalitetsproblem ligger i systemer der det er stor tillit til manuell dataregistrering, enten fra kunder eller medarbeidere. Her er det ikke uvanlig å finne fornavn og etternavn skiftet eller annen feilinformasjon i datafeltene.

Datakvalitetsproblemer er en stor avtale for datalagringsmiljøer, og det er derfor mye innsats går inn i rensing og valideringstrinn, da data fra andre systemer behandles som det er lastet inn i lageret. Alt kommer ned til tillit : Hvis dataene du stiller spørsmål er skitne, kan du ikke stole på svarene i rapportene dine.

Så mens det er stort potensial for å få tilgang til mange forskjellige datasett fra forskjellige kilder i Hadoop landingssone, må du faktor i datakvalitet og hvor mye du kan stole på dataene.

Hadoop-baserte landingssonen - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...