Hvordan prioritere stor datakvalitet - dummier

Video: TrineLive: Hvordan prioritere det viktigste først! 2025

Å få det rette perspektivet på datakvalitet kan være svært utfordrende i verden av store data. Med de fleste store datakilder må du anta at du jobber med data som ikke er rene. Faktisk er den overveldende overflod av tilsynelatende tilfeldige og frakoblede data i strømmer av sosiale medier data en av de tingene som gjør det så nyttig for bedrifter.

Du starter med å søke petabytes av data uten å vite hva du kan finne etter at du har begynt å lete etter mønstre i dataene. Du må akseptere det faktum at mye støy vil eksistere i dataene. Det er bare ved å søke og mønster matching at du vil kunne finne noen gnister av sannhet midt i noen svært skitne data.

Selvfølgelig har noen store datakilder som data fra RFID-koder eller sensorer bedre etablerte regler enn sosiale medier. Sensordataene bør være rimelig rene, selv om du kanskje regner med å finne noen feil. Det er alltid ditt ansvar når du analyserer enorme mengder data for å planlegge kvalitetsnivået til dataene. Du bør følge en tofaset tilnærming til datakvaliteten:

Fase 1 : Se etter mønstre i store data uten bekymring for datakvalitet.

Fase 2: Når du har funnet mønstrene dine og opprettholder resultater som er viktige for virksomheten, må du bruke de samme datakvalitetsstandardene som gjelder for dine tradisjonelle datakilder. Du vil unngå å samle inn og administrere store data som ikke er viktige for virksomheten, og vil potensielt ødelegge andre dataelementer i Hadoop eller andre store dataplattformer.

Når du begynner å inkludere resultatene av din store dataanalyse i forretningsprosessen, må du gjenkjenne at data av høy kvalitet er avgjørende for at et firma skal kunne ta gode forretningsbeslutninger. Dette gjelder for store data samt tradisjonelle data.

Kvaliteten på data refererer til egenskaper om dataene, inkludert konsistens, nøyaktighet, pålitelighet, fullstendighet, aktualitet, rimelighet og gyldighet. Datakvalitetsprogramvaren sørger for at dataelementene er representert på samme måte over ulike datalager eller systemer for å øke dataens konsistens.

For eksempel kan en datalager bruke to linjer for kundens adresse, og en annen datalager kan bruke en linje. Denne forskjellen i måten dataene er representert på, kan føre til unøyaktig informasjon om kunder, for eksempel at en kunde blir identifisert som to forskjellige kunder.

Et selskap kan bruke dusinvis av varianter av selskapets navn når det kjøper produkter.Datakvalitetsprogramvare kan brukes til å identifisere alle variantene av firmanavnet i dine forskjellige datalager og sørge for at du vet alt som denne kunden kjøper fra virksomheten din.

Denne prosessen kalles gir en enkelt visning av kunde eller produkt. Datakvalitetsprogramvare samsvarer med data på tvers av forskjellige systemer og rydder opp eller fjerner overflødige data. Datakvalitetsprosessen gir virksomheten informasjon som er enklere å bruke, tolke og forstå.

Dataprofileringsverktøy brukes i datakvalitetsprosessen for å hjelpe deg med å forstå innholdet, strukturen og tilstanden til dataene dine. De samler informasjon om egenskapene til dataene i en database eller annen datalager for å starte prosessen med å snu dataene til en mer klarert form. Verktøyene analyserer dataene for å identifisere feil og inkonsekvenser.

De kan gjøre justeringer for disse problemene og rette feil. Verktøyet kontrollerer for akseptable verdier, mønstre og intervaller og hjelper til med å identifisere overlappende data. Dataprofileringsprosessen kontrollerer for eksempel å se om dataene forventes å være alfa eller numeriske. Verktøyene kontrollerer også for avhengigheter eller for å se hvordan dataene gjelder data fra andre databaser.

Dataprofileringsverktøy for store data har en lignende funksjon som dataprofileringsverktøy for tradisjonelle data. Data-profileringsverktøy for Hadoop vil gi deg viktig informasjon om dataene i Hadoop-klynger. Disse verktøyene kan brukes til å søke etter kamper og fjerne duplikasjoner. Som et resultat kan du sikre at dine store data er konsistente. Hadoop verktøy som HiveQL og Pig Latin kan brukes til transformasjonsprosessen.