Hjem Personlig finansiering Hvordan prioritere stor datakvalitet - dummier

Hvordan prioritere stor datakvalitet - dummier

Video: TrineLive: Hvordan prioritere det viktigste først! 2025

Video: TrineLive: Hvordan prioritere det viktigste først! 2025
Anonim

Å få det rette perspektivet på datakvalitet kan være svært utfordrende i verden av store data. Med de fleste store datakilder må du anta at du jobber med data som ikke er rene. Faktisk er den overveldende overflod av tilsynelatende tilfeldige og frakoblede data i strømmer av sosiale medier data en av de tingene som gjør det så nyttig for bedrifter.

Du starter med å søke petabytes av data uten å vite hva du kan finne etter at du har begynt å lete etter mønstre i dataene. Du må akseptere det faktum at mye støy vil eksistere i dataene. Det er bare ved å søke og mønster matching at du vil kunne finne noen gnister av sannhet midt i noen svært skitne data.

Selvfølgelig har noen store datakilder som data fra RFID-koder eller sensorer bedre etablerte regler enn sosiale medier. Sensordataene bør være rimelig rene, selv om du kanskje regner med å finne noen feil. Det er alltid ditt ansvar når du analyserer enorme mengder data for å planlegge kvalitetsnivået til dataene. Du bør følge en tofaset tilnærming til datakvaliteten:

Fase 1 : Se etter mønstre i store data uten bekymring for datakvalitet.

Fase 2: Når du har funnet mønstrene dine og opprettholder resultater som er viktige for virksomheten, må du bruke de samme datakvalitetsstandardene som gjelder for dine tradisjonelle datakilder. Du vil unngå å samle inn og administrere store data som ikke er viktige for virksomheten, og vil potensielt ødelegge andre dataelementer i Hadoop eller andre store dataplattformer.

Når du begynner å inkludere resultatene av din store dataanalyse i forretningsprosessen, må du gjenkjenne at data av høy kvalitet er avgjørende for at et firma skal kunne ta gode forretningsbeslutninger. Dette gjelder for store data samt tradisjonelle data.

Kvaliteten på data refererer til egenskaper om dataene, inkludert konsistens, nøyaktighet, pålitelighet, fullstendighet, aktualitet, rimelighet og gyldighet. Datakvalitetsprogramvaren sørger for at dataelementene er representert på samme måte over ulike datalager eller systemer for å øke dataens konsistens.

For eksempel kan en datalager bruke to linjer for kundens adresse, og en annen datalager kan bruke en linje. Denne forskjellen i måten dataene er representert på, kan føre til unøyaktig informasjon om kunder, for eksempel at en kunde blir identifisert som to forskjellige kunder.

Et selskap kan bruke dusinvis av varianter av selskapets navn når det kjøper produkter.Datakvalitetsprogramvare kan brukes til å identifisere alle variantene av firmanavnet i dine forskjellige datalager og sørge for at du vet alt som denne kunden kjøper fra virksomheten din.

Denne prosessen kalles gir en enkelt visning av kunde eller produkt. Datakvalitetsprogramvare samsvarer med data på tvers av forskjellige systemer og rydder opp eller fjerner overflødige data. Datakvalitetsprosessen gir virksomheten informasjon som er enklere å bruke, tolke og forstå.

Dataprofileringsverktøy brukes i datakvalitetsprosessen for å hjelpe deg med å forstå innholdet, strukturen og tilstanden til dataene dine. De samler informasjon om egenskapene til dataene i en database eller annen datalager for å starte prosessen med å snu dataene til en mer klarert form. Verktøyene analyserer dataene for å identifisere feil og inkonsekvenser.

De kan gjøre justeringer for disse problemene og rette feil. Verktøyet kontrollerer for akseptable verdier, mønstre og intervaller og hjelper til med å identifisere overlappende data. Dataprofileringsprosessen kontrollerer for eksempel å se om dataene forventes å være alfa eller numeriske. Verktøyene kontrollerer også for avhengigheter eller for å se hvordan dataene gjelder data fra andre databaser.

Dataprofileringsverktøy for store data har en lignende funksjon som dataprofileringsverktøy for tradisjonelle data. Data-profileringsverktøy for Hadoop vil gi deg viktig informasjon om dataene i Hadoop-klynger. Disse verktøyene kan brukes til å søke etter kamper og fjerne duplikasjoner. Som et resultat kan du sikre at dine store data er konsistente. Hadoop verktøy som HiveQL og Pig Latin kan brukes til transformasjonsprosessen.

Hvordan prioritere stor datakvalitet - dummier

Redaktørens valg

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

GED Science test vil stille spørsmål relatert til beskrivende statistikk. Du kan ofte oppsummere en samling av data (fra et eksperiment, observasjoner eller undersøkelser, for eksempel) ved å bruke beskrivende statistikk, tall som brukes til å oppsummere og analysere dataene og trekke konklusjoner fra det. Beskrivende statistikk for en samling av data inkluderer følgende: Frekvens: ...

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Bruk av bevis for å forutsi utfall er en nødvendig ferdighet for GED Science-testen. De største fordelene med vitenskapelige studier kan ofte tilskrives det faktum at deres konklusjoner gjør det mulig for folk å forutsi utfall. (Du vil sikkert ønske vitenskap kan hjelpe deg med å forutsi utfallet ditt på prøve!) Du er vitne til vitenskap i handling hver dag ...

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

GED Social Studies test vil stille spørsmål som krever at du bestemmer troverdigheten til en forfatter. Det er ikke alltid lett å vurdere om en forfatter er troverdig basert på informasjonen som er gitt i en skriftlig oversikt og referansen, men du kan hente spor ved å nøye undersøke følgende områder: Forfatterens ...

Redaktørens valg

Hva skjer i QuickBooks 2013 Setup? - dummies

Hva skjer i QuickBooks 2013 Setup? - dummies

Etter at du har installert QuickBooks 2013, kjører du en skjermveiviser for å sette opp QuickBooks for firmaets regnskap. Klart, denne skjermveiviseren kalles QuickBooks Setup. Når du kjører QuickBooks Setup, gir du ganske mye informasjon til QuickBooks. Som en praktisk sak krever oppsettet og oppsettet etter oppsettet at du har ...

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Når du jobber med betalbar betaling i QuickBooks 2013, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter i QuickBooks 2013 Vendor Center-vinduet viser en liste over leverandører og detaljerte ...

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Når du jobber med betalbar betaling i QuickBooks 2014, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter Vendor Center-vinduet viser en liste over leverandører og detaljert leverandørinformasjon for ...