Video: The Vietnam War: Reasons for Failure - Why the U.S. Lost 2025
Når du designer et datalager og bestemmer hvilke eksterne data du trenger, plasserer du bare en bestilling (som å bestille klær eller en fruktkurv fra et nettsted). Når du begynner å motta data via en strøm, filoverføring eller på annen måte, er det jevnt seiling - eller er det?
Hva med kvaliteten på innkommende data? Du må absolutt bruke samme sett med kvalitetssikringsprosedyrer til eksternt oppgitte data som du gjør til data som kommer fra dine egne interne systemer. Bare fordi du kjøper informasjonen på det åpne markedet, garanterer du ikke at dataene er feilfrie.
Bruk QA-prosedyrer til hver innkommende gruppe data ved å følge disse trinnene:
-
Finn ut om innkommende data har kontrollverdier som er lagt til filene.
Noen eksempler på kontrollverdier er antall poster i hver fil, summen av hver tallkolonne (total salgsdoll for alle poster og totale enheter solgt for alle poster, for eksempel) og delsett av de totale kolonnverdiene (totalt antall salg og enheter etter stat, for eksempel).
Hvis sjekkverdiene er oppgitt, må de lagres og brukes som en del av end-to-end-lastingsprosedyrene. Ingen bør offisielt oppdatere varehusets innhold til sjekken totalt er enig med beregningene du gjorde da du forberedte dataene for lasting.
-
Hvis ingen kontrollverdier er oppgitt, be om dem.
Selv om forespørselen kan ta noen sykluser (for noen få uker eller måneder, for eksempel) for å fylle, tar enhver datoperatør som er interessert i å tilby høyt kundeservice, denne typen forespørsel seriøst og forsøker å gjøre den forespurte kontrollinformasjonen tilgjengelig.
-
Under lastingsprosedyrene filtrerer du hver rad.
Kontroller at følgende betingelser er oppfylt:
-
Keys (unike identifikatorer for hver post) er korrekte på tvers av all informasjon. For eksempel, hvis hver post i SalesMasterRecord-gruppen av data må ha nøyaktig 12 relaterte poster i SalesDetailRecord (en for hver måned), må du kontrollere at alle detaljrekordene er til stede ved å sammenligne rekordnøkkelverdier.
-
Verdier er riktige. Produktsalg per måned, for eksempel, må være innenfor rimelige grenser for den typen produkt (for eksempel fly er forskjellig fra bolter).
-
Manglende felt av informasjon (en sannsynlig - nesten uunngåelig - forekomst med eksternt oppgitte data) forvrenger ikke betydningen av innkommende data.
Selv om fraværet av tilleggsdata (definert i henhold til forretningsreglene for din spesifikke bransje eller organisasjon) kanskje ikke er for alvorlig et problem, hvis halvparten av innkommende poster har et tomrom der UnitsSold, TotalSalesPrice, eller annen kritisk type informasjon skal være, er verdien av dataene best i tvil.
-
Bruk de analytiske verktøyene som beskrevet i kapittel 10, spesielt i de tidlige stadiene for å skaffe eksterne data (for eksempel de første tre eller fire månedene) for å utføre datakvalitetsanalyse før brukerne bruker de samme verktøyene for å utføre forretninger analyse.
Søk etter oddities, uregelmessigheter, unnvikende resultater, inkonsekvenser, tilsynelatende paradokser og alt annet som bare ser rart ut. Deretter drar du ned til dataens røtter for å se etter kilden til den rare.
Husk at du sannsynligvis arbeider med mange millioner rader med innkommende data: I tillegg til at du ikke kan sjekke ut hver enkelt rad, kan det hende du har problemer med å sette opp filtrering og QA-kontrollkriterier for alle mulige forhold.
Alle som noensinne har gjort noe med eksternt oppgitte kildedata, har kommet over alle slags merkelige inkonsekvenser og mangler data i den innkommende informasjonen. Ved å sette deg selv i stedet for brukerne og bruke de samme verktøyene de bruker, kan du sannsynligvis oppdage en ting eller to som du kan rette, noe som gjør datalagret ditt en mye bedre lagring av verdifull forretningsinformasjon.
-
