Data warehouse modernisering med Hadoop - dummies

Video: Enjeux des entrepôts de données de santé 2024

Dataposthusene er nå under stress og prøver å takle økte krav til sine endelige ressurser. Hadoop kan gi betydelig lettelse i denne data warehouse situasjonen.

Den raske økningen i mengden data som er generert i verden, har også påvirket datalagring, fordi datamengden de administrerer øker - delvis fordi flere strukturerte data, typen data som er sterkt skrevet og slått inn i rader og kolonner - genereres, men også fordi du ofte må håndtere regulatoriske krav som er utformet for å opprettholde forespørsler om tilgang til historiske data.

I tillegg brukes prosessorkraften i datalagre ofte til å utføre transformasjoner av relasjonsdataene ettersom de enten går inn i lageret selv eller lastes inn i barndata mart (en separat delmengde av datalageret) for en bestemt analyseapplikasjon.

I tillegg øker behovet for analytikere til å utstede nye spørringer mot strukturerte data lagret i lagre, og disse ad hoc-spørringene kan ofte bruke betydelige databehandlingsressurser. Noen ganger kan en engangsrapport være tilstrekkelig, og noen ganger må en undersøkende analyse være nødvendig for å finne spørsmål som ikke har blitt spurt ennå, som kan gi betydelig forretningsverdi.

Bunnlinjen er at datalagre ofte blir brukt til formål utover deres opprinnelige design.

Figuren viser, ved hjelp av arkitektur på høyt nivå, hvordan Hadoop kan leve sammen med datalager og oppfylle noen av de formålene de ikke er laget for.

Hadoop er et lager hjelper, ikke et lagerutskift. Hadoop kan modernisere et data warehousing økosystem på fire måter; her er de i sammendrag:

Gi en landingssone for alle dataene.
Fortsetter dataene for å gi et spørringsarkiv av kalddata.
Utnytt Hadops storskala prosesseringsprosesser for å preprosessere og transformere data til lageret.
Aktiver et miljø for ad hoc-dataoppdagelse.