Data transformasjon i Hadoop - dummies - Personlig finansiering 2024

Video: Stordata endrer spillet - Claus Sonberg og Peter Majanen 2024

Ideen om Hadoop-inspirerte ETL-motorer har fått mye trekkraft de siste årene. Hadoop er trods alt en fleksibel datalagrings- og behandlingsplattform som kan støtte store mengder data og operasjoner på dataene. Samtidig er det feiltolerant, og det gir mulighet for kostnadsreduksjoner for kapital og programvare.

Til tross for Hadops popularitet som en ETL-motor, anbefaler mange mennesker (inkludert et kjent firma av analytikere) ikke Hadoop som eneste teknologi for ETL-strategien. Dette skyldes i stor grad at utvikling av ETL-strømmer krever stor kompetanse om organisasjonens eksisterende databasesystemer, selve dataene i dataene, og rapporter og applikasjoner avhengig av det.

DBA, utviklere og arkitekter i IT-avdelingen din vil med andre ord bli kjent nok med Hadoop for å implementere de nødvendige ETL-flytene. For eksempel kan mye intensiv håndkoding med Pig, Hive eller MapReduce være nødvendig for å skape selv de enkleste dataflytene - som setter firmaet på kroken for disse ferdighetene dersom det følger denne banen.

Du må kode elementer som parallell feilsøking, applikasjonsadministrasjonstjenester (for eksempel sjekkepek og feil og hendelseshåndtering). Vurder også bedriftens krav som glossarisering og å kunne vise datas linjene.

Det er lovkrav for mange bransjestandardrapporter, der datainnsamling er nødvendig. Den rapporterende organisasjonen må kunne vise hvor datapunktene i rapporten kommer fra, hvordan dataene kommer til deg og hva som er gjort med dataene.

Selv for relasjonelle databasesystemer er ETL kompleks nok til at det finnes populære spesialiserte produkter som gir grensesnitt for styring og utvikling av ETL-strømmer. Noen av disse produktene hjelper nå i Hadoop-basert ETL og annen Hadoop-basert utvikling. Men, avhengig av dine krav, må du kanskje skrive litt av din egen kode for å støtte din transformasjonslogikk.