Hadoop-baserte landingssonen - dummies - Personlig finansiering 2025

Når du prøver å finne ut hva et analysemiljø kan se ut i fremtiden, du snubler over mønsteret til Hadoop-baserte landingssone gang på gang. Faktisk er det ikke lenger en futuresorientert diskusjon fordi landingssonen er blitt den måten fremtidsrettede selskaper nå prøver å spare IT-kostnader, og gir en plattform for nyskapende dataanalyse.

Så hva er landingssonen? På det mest grunnleggende nivå er landingssonen bare det sentrale stedet hvor data vil lande i bedriften din - ukentlig utvinning av data fra operative databaser, for eksempel, eller fra systemer som genererer loggfiler. Hadoop er et nyttig lager for å lande data, av disse grunner:

Den kan håndtere alle slags data.
Det er lett skalerbart.
Det er billig.
Når du har landet data i Hadoop, har du fleksibilitet til å spørre, analysere eller behandle dataene på en rekke måter.

Dette diagrammet viser bare en del av historien og er på ingen måte fullført. Tross alt må du vite hvordan dataene flytter fra landingssonen til datalageret, og så videre.

Utgangspunktet for diskusjonen om modernisering av et datalager må være hvordan organisasjoner bruker datalager og utfordringene IT-avdelinger står overfor med dem.

I løpet av 1980-tallet begynte bedriftsledere å ha rapporter fra disse relasjonsdataene, når organisasjoner ble gode til å lagre operasjonsinformasjon i relasjonsdatabaser (f.eks. Salgstransaksjoner eller forsyningskjedestatuser). De tidligste relasjonelle butikkene var operasjonelle databaser og ble designet for online transaksjonsbehandling (OLTP), slik at poster kunne settes inn, oppdateres eller slettes så raskt som mulig.

Dette er en upraktisk arkitektur for storskala rapportering og analyse, slik at databaser for relasjonsanalytisk analyseanalyse (ROLAP) ble utviklet for å møte dette behovet. Dette førte til utviklingen av en helt ny type RDBMS: a datalager, som er en egen enhet og lever sammen med en organisasjons operasjonsdatabutikker.

Dette kommer ned til bruk av spesialbyggede verktøy for større effektivitet: Du har operative datalager, som er utviklet for å effektivt behandle transaksjoner og datalager, som er designet for å støtte gjentatt analyse og rapportering.

Datavarehus er under økende stress, av følgende grunner:

Økt etterspørsel for å holde lengre perioder med data på nettet.
Økt etterspørsel etter behandling av ressurser for å transformere data til bruk i andre varehus og data mars.
Økt etterspørsel etter nyskapende analyse, noe som krever at analytikere stiller spørsmål om lagerdata, i tillegg til den vanlige rapporteringen som allerede er gjort. Dette kan medføre betydelig tilleggsbehandling.

I figuren kan du se datalageret som presenteres som den primære ressursen for de ulike analysene som er oppført på høyre side av figuren. Her ser du også konseptet om en landingssone som er representert, hvor Hadoop lagrer data fra en rekke innkommende datakilder.

For å aktivere Hadops landingsson må du sørge for at du kan skrive data fra de ulike datakildene til HDFS. For relasjonsdatabaser, ville en god løsning være å bruke Sqoop.

Men landing av data er bare begynnelsen.

Når du flytter data fra mange kilder til landingssonen, er det et problem du uunngåelig vil trenge på, datakvalitet. Det er vanlig at bedrifter har mange operative databaser hvor nøkkeldetaljer er forskjellige, for eksempel at en kunde kan være kjent som "D. deRoos "i en database, og" Dirk deRoos "i en annen.

Et annet kvalitetsproblem ligger i systemer der det er stor tillit til manuell dataregistrering, enten fra kunder eller medarbeidere. Her er det ikke uvanlig å finne fornavn og etternavn skiftet eller annen feilinformasjon i datafeltene.

Datakvalitetsproblemer er en stor avtale for datalagringsmiljøer, og det er derfor mye innsats går inn i rensing og valideringstrinn, da data fra andre systemer behandles som det er lastet inn i lageret. Alt kommer ned til tillit : Hvis dataene du stiller spørsmål er skitne, kan du ikke stole på svarene i rapportene dine.

Så mens det er stort potensial for å få tilgang til mange forskjellige datasett fra forskjellige kilder i Hadoop landingssone, må du faktor i datakvalitet og hvor mye du kan stole på dataene.