Video: Regnskapsførers rolle som rådgiver 2025
ETL-verktøy kombinerer tre viktige funksjoner (ekstrakt, transformer, last) som kreves for å få data fra ett stort datamiljø og legg det inn i et annet datamiljø. Tradisjonelt har ETL blitt brukt med batchbehandling i datalagringsmiljøer. Datavarehus gir bedriftsbrukere en måte å konsolidere informasjon for å analysere og rapportere om data som er relevante for deres forretningsfokus. ETL-verktøy brukes til å transformere data i formatet som kreves av datalager.
Transformasjonen gjøres faktisk i en mellomliggende posisjon før dataene lastes inn i datalageret. Mange programvareleverandører, inkludert IBM, Informatica, Pervasive, Talend og Pentaho, gir ETL-programvareverktøy.
ETL gir den underliggende infrastrukturen for integrasjon ved å utføre tre viktige funksjoner:
-
Utdrag: Les data fra kildedatabasen.
-
Transform: Konverter formatet til de ekstraherte dataene slik at de overholder kravene til måldatabasen. Transformasjon gjøres ved å bruke regler eller slå sammen data med andre data.
-
Last: Skriv data til måldatabasen.
ETL utvikler seg imidlertid for å støtte integrasjon over mye mer enn tradisjonelle datalager. ETL kan støtte integrasjon på tvers av transaksjonssystemer, operative datalager, BI-plattformer, MDM-hubber, skyen og Hadoop-plattformene. ETL-programvareleverandører utvider sine løsninger for å gi stor datautvinning, transformasjon og lasting mellom Hadoop og tradisjonelle datastyringsplattformer.
ETL og programvareverktøy for andre dataintegrasjonsprosesser som datarensing, profilering og revisjon av alt arbeid på ulike sider av dataene for å sikre at dataene blir ansett troverdige. ETL-verktøy integreres med datakvalitetsverktøy, og mange inkorporerer verktøy for data rensing, datakartlegging og identifisering av datastreng. Med ETL utvider du bare dataene du trenger for integrasjonen.
ETL-verktøy er nødvendig for å laste og konvertere strukturerte og ustrukturerte data til Hadoop. Avanserte ETL-verktøy kan lese og skrive flere filer parallelt fra og til Hadoop for å forenkle hvordan data slås sammen til en felles transformasjonsprosess. Noen løsninger inneholder biblioteker av forhåndsbyggede ETL-transformasjoner for både transaksjons- og samspillingsdataene som kjører på Hadoop eller en tradisjonell nettverksinfrastruktur.
Datatransformasjon er prosessen med å endre formatet på data slik at det kan brukes av forskjellige applikasjoner.Dette kan bety en endring fra formatet dataene lagres i, i formatet som kreves av programmet som skal bruke dataene. Denne prosessen inneholder også kartlegging instruksjoner slik at programmer blir fortalt hvordan de får de dataene de trenger for å behandle.
Prosessen med datatransformasjon blir gjort langt mer kompleks på grunn av den svimlende veksten i mengden av ustrukturerte data. En forretningsapplikasjon som en kundeforholdsstyring har spesifikke krav til hvordan data skal lagres. Dataene er sannsynligvis strukturert i de organiserte rader og kolonner i en relasjonsdatabase. Data er halvstrukturert eller ustrukturert hvis den ikke følger stive formatkrav.
Informasjonen i en e-postmelding anses for eksempel ustrukturert. Noen av selskapets viktigste opplysninger er i ustrukturerte og halvstrukturerte former som dokumenter, e-postmeldinger, komplekse meldingsformater, kundesupportinteraksjoner, transaksjoner og informasjon som kommer fra pakkede applikasjoner som ERP og CRM.
Datatransformasjonsverktøy er ikke designet for å fungere godt med ustrukturerte data. Som et resultat har bedrifter som trenger å inkorporere ustrukturert informasjon i sin beslutningsprosess for forretningsprosess, blitt møtt med en betydelig mengde manuell koding for å oppnå den nødvendige dataintegrasjonen.
I lys av veksten og betydningen av ustrukturerte data i beslutningsprosessen, begynner ETL-løsninger fra store leverandører å tilby standardiserte tilnærminger til å transformere ustrukturerte data slik at den lettere kan integreres med operasjonelle strukturerte data.
