Hjem Personlig finansiering Hvordan prioritere stor datakvalitet - dummier

Hvordan prioritere stor datakvalitet - dummier

Video: TrineLive: Hvordan prioritere det viktigste først! 2024

Video: TrineLive: Hvordan prioritere det viktigste først! 2024
Anonim

Å få det rette perspektivet på datakvalitet kan være svært utfordrende i verden av store data. Med de fleste store datakilder må du anta at du jobber med data som ikke er rene. Faktisk er den overveldende overflod av tilsynelatende tilfeldige og frakoblede data i strømmer av sosiale medier data en av de tingene som gjør det så nyttig for bedrifter.

Du starter med å søke petabytes av data uten å vite hva du kan finne etter at du har begynt å lete etter mønstre i dataene. Du må akseptere det faktum at mye støy vil eksistere i dataene. Det er bare ved å søke og mønster matching at du vil kunne finne noen gnister av sannhet midt i noen svært skitne data.

Selvfølgelig har noen store datakilder som data fra RFID-koder eller sensorer bedre etablerte regler enn sosiale medier. Sensordataene bør være rimelig rene, selv om du kanskje regner med å finne noen feil. Det er alltid ditt ansvar når du analyserer enorme mengder data for å planlegge kvalitetsnivået til dataene. Du bør følge en tofaset tilnærming til datakvaliteten:

Fase 1 : Se etter mønstre i store data uten bekymring for datakvalitet.

Fase 2: Når du har funnet mønstrene dine og opprettholder resultater som er viktige for virksomheten, må du bruke de samme datakvalitetsstandardene som gjelder for dine tradisjonelle datakilder. Du vil unngå å samle inn og administrere store data som ikke er viktige for virksomheten, og vil potensielt ødelegge andre dataelementer i Hadoop eller andre store dataplattformer.

Når du begynner å inkludere resultatene av din store dataanalyse i forretningsprosessen, må du gjenkjenne at data av høy kvalitet er avgjørende for at et firma skal kunne ta gode forretningsbeslutninger. Dette gjelder for store data samt tradisjonelle data.

Kvaliteten på data refererer til egenskaper om dataene, inkludert konsistens, nøyaktighet, pålitelighet, fullstendighet, aktualitet, rimelighet og gyldighet. Datakvalitetsprogramvaren sørger for at dataelementene er representert på samme måte over ulike datalager eller systemer for å øke dataens konsistens.

For eksempel kan en datalager bruke to linjer for kundens adresse, og en annen datalager kan bruke en linje. Denne forskjellen i måten dataene er representert på, kan føre til unøyaktig informasjon om kunder, for eksempel at en kunde blir identifisert som to forskjellige kunder.

Et selskap kan bruke dusinvis av varianter av selskapets navn når det kjøper produkter.Datakvalitetsprogramvare kan brukes til å identifisere alle variantene av firmanavnet i dine forskjellige datalager og sørge for at du vet alt som denne kunden kjøper fra virksomheten din.

Denne prosessen kalles gir en enkelt visning av kunde eller produkt. Datakvalitetsprogramvare samsvarer med data på tvers av forskjellige systemer og rydder opp eller fjerner overflødige data. Datakvalitetsprosessen gir virksomheten informasjon som er enklere å bruke, tolke og forstå.

Dataprofileringsverktøy brukes i datakvalitetsprosessen for å hjelpe deg med å forstå innholdet, strukturen og tilstanden til dataene dine. De samler informasjon om egenskapene til dataene i en database eller annen datalager for å starte prosessen med å snu dataene til en mer klarert form. Verktøyene analyserer dataene for å identifisere feil og inkonsekvenser.

De kan gjøre justeringer for disse problemene og rette feil. Verktøyet kontrollerer for akseptable verdier, mønstre og intervaller og hjelper til med å identifisere overlappende data. Dataprofileringsprosessen kontrollerer for eksempel å se om dataene forventes å være alfa eller numeriske. Verktøyene kontrollerer også for avhengigheter eller for å se hvordan dataene gjelder data fra andre databaser.

Dataprofileringsverktøy for store data har en lignende funksjon som dataprofileringsverktøy for tradisjonelle data. Data-profileringsverktøy for Hadoop vil gi deg viktig informasjon om dataene i Hadoop-klynger. Disse verktøyene kan brukes til å søke etter kamper og fjerne duplikasjoner. Som et resultat kan du sikre at dine store data er konsistente. Hadoop verktøy som HiveQL og Pig Latin kan brukes til transformasjonsprosessen.

Hvordan prioritere stor datakvalitet - dummier

Redaktørens valg

Speil Lockup (MUP) på Nikon D7100-dummies

Speil Lockup (MUP) på Nikon D7100-dummies

En komponent i det optiske systemet til din Nikon D7100 kamera er et speil som beveger seg hver gang du trykker på lukkerknappen. Den lille vibrasjonen som følge av speilets handling kan føre til svak utryddelse av bildet når du bruker en veldig langsom lukkerhastighet, skyter med en lang teleobjektiv, ...

Opptaksmuligheter på Nikon D5300 - dummies

Opptaksmuligheter på Nikon D5300 - dummies

Du kan styre noen få aspekter av din filmoppgave på din Nikon D5300. Du kan manipulere videoen din for å skape en rekke effekter. Følgende liste går gjennom disse alternativene: Eksponeringsmodus: Du kan ta opp filmer i hvilken som helst eksponeringsmodus (Auto, Scenemodus, Effektmodus, P, M, og så videre). Som med fortsatt ...

Hvordan man manipulerer eksponering og kontroll på Nikon D5600-dummies

Hvordan man manipulerer eksponering og kontroll på Nikon D5600-dummies

Følgende retusjonsverktøy på din Nikon D5600 kamerajustering eksponering og farge: D-Lighting, Quick Retouch, Filter Effects og Monochrome. Selv om disse verktøyene ikke får deg til å velge ett kamera over en annen, hvis du allerede har en Nikon D5600, er de tilgjengelige, så du kan også lære å bruke dem! D-Lighting: Active D-Lighting ...

Redaktørens valg

DOs og DON'Ts of Fantasy Basketball Draft Picks - dummies

DOs og DON'Ts of Fantasy Basketball Draft Picks - dummies

Hvis du vurderer bli med i en fantasy basketball liga, må du ta hensyn til følgende DOs og DON'Ts før du vurderer spillerne du vil utarbeide på laget ditt. Kreditt: © iStockphoto. com / IS_ImageSource Fantasy basketball draft pick DOS I de fleste fantasy basketball ligaer bestemmer kommisjonen (personen som setter opp ligaen) bestillingen i ...

Linjene og dimensjonene til en basketballbane - dummies

Linjene og dimensjonene til en basketballbane - dummies

En basketballbane har symmetri; Den ene halvdelen av retten er et speilbilde av den andre. Hele basketballbanen (se figur 1) er 94 fot med 50 fot. På hver halvplass viser malte linjer fritt korsbanen og sirkelen, samt trepunktsbuen, hvis avstand fra kurven varierer basert ...

Kjøp av gratis agenter i fantasy fotball - dummies

Kjøp av gratis agenter i fantasy fotball - dummies

I løpet av fantasy fotball sesongen, spillere som ikke blir utarbeidet bli gratis agenter - spillere tilgjengelig for enhver ligamatch villig til å slippe en eid spiller. Bruk gratis agentbassenget til å erstatte en skadet spiller eller noen som bare ikke lever opp til dine forventninger. Bruk disse tipsene for å finne en gratis agent for å ...

Redaktørens valg

Grunnleggende for din iOS-app - dummies

Grunnleggende for din iOS-app - dummies

Heldigvis mesteparten av det du trenger å gjøre så langt som iOS animasjon er opptatt er allerede bygd inn i rammen. Noen visningsegenskaper kan animeres, noe som betyr at du bare må fortelle visningen hvor du skal begynne og hvor du skal avslutte flyttingen, og noen få andre valgfrie parametere, og du er ferdig. ...

Montering av verktøylinjen for Android App Development - dummies

Montering av verktøylinjen for Android App Development - dummies

Når du vet at du er klar til være en Android-utvikler, ta tak i datamaskinen din og få sprekker på å installere verktøyene og rammene som er nødvendige for å bygge ditt første blockbuster-program. Linux-kjernen Android ble opprettet på toppen av åpen kildekode Linux-kjernen. Android-teamet valgte å bruke denne kjernen fordi den ga bevist ...

Grunnleggende om Cocoa Touch i iOS Apps - dummies

Grunnleggende om Cocoa Touch i iOS Apps - dummies

Cocoa Touch-laget inneholder det meste av objektet -orientert utvikler-vendt rammer for å bygge iOS applikasjoner. Det er ditt eneste utgangspunkt for app-utvikling. Apple-guiderne oppfordrer deg til å undersøke teknologiene i dette laget for å se om de oppfyller dine behov, før du ser på de andre lagene. Med andre ord, Apple har til hensikt å ...