Hybrid Data Preprocess Option i Hadoop - dummies

Video: Bringing Data Science at Scale to Hortonworks Data Platform 2025

I tillegg til å måtte lagre større volumer kalddata, er det et trykk du ser i Tradisjonelle datalager er at økende mengder prosessressurser blir brukt til transformasjon (ELT) arbeidsbelastninger.

Tanken bak å bruke Hadoop som en forbehandlingsmotor for å håndtere datatransformasjon, innebærer at dyrebare behandlingssykluser frigjøres, slik at datalageret holder seg til det opprinnelige formålet: Svar på gjentatte forretningsspørsmål for å støtte analytiske applikasjoner. Igjen ser du hvordan Hadoop kan utfylle tradisjonelle data warehouse distribusjoner og forbedre deres produktivitet.

Kanskje en liten, imaginær lyspære har lyst opp over hodet ditt og du tenker, "Hei, kanskje er det er noen transformasjonsoppgaver som passer perfekt til Hadops databehandlingsevne, men jeg vet at det også er mye transformasjonsarbeid gjennomsøkt i algebraiske, trinnvise oppgaver der å kjøre SQL på en relationsdatabasemotor ville være det bedre valget. Ville det ikke vært kult hvis jeg kunne kjøre SQL på Hadoop? “

SQL på Hadoop er allerede her. Med muligheten til å utstede SQL-spørringer mot data i Hadoop, er du ikke fast med bare ETL-tilnærming til datastrømmene dine - du kan også distribuere ELT-lignende applikasjoner.

En annen hybrid tilnærming å vurdere er hvor du skal kjøre transformasjonslogikken din: i Hadoop eller i datalageret? Selv om noen organisasjoner er opptatt av å kjøre alt annet enn analytikk i varehusene, er det faktum at relasjonsdatabaser er gode til å kjøre SQL, og kan være et mer praktisk sted å drive en transformasjon enn Hadoop.