8 Beste Practices in Data Preparation - dummies

Statistiske programvarepakker er svært kraftige disse dager, men de kan ikke overvinne data med dårlig kvalitet. Følgende er en sjekkliste over ting du må gjøre før du går av å bygge statistiske modeller.

Kontroller dataformater

Analysen din starter alltid med en rå datafil. Rå datafiler kommer i mange forskjellige former og størrelser. Mainframe-data er forskjellig fra PC-data, regnearkdata er formatert annerledes enn webdata, og så videre. Og i en alder av store data, vil du sikkert stå overfor data fra en rekke kilder. Ditt første skritt i å analysere dataene dine er å sørge for at du kan lese filene du får.

Du må faktisk se på hva hvert felt inneholder. For eksempel er det ikke lurt å stole på at bare fordi et felt er oppført som et tegnfelt, inneholder det faktisk tegndata.

Verifiser datatyper

Alle data faller inn i en av fire kategorier som påvirker hvilken type statistikk du kan bruke riktig på:

Nominelle data er egentlig bare et navn eller en identifikator.
Ordinære data setter poster i rekkefølge fra laveste til høyeste.
Intervalldata representerer verdier hvor forskjellene mellom dem er sammenlignbare.
Forholdsdata er som intervalldata, bortsett fra at det også gir en verdi på 0.

Det er viktig å forstå hvilke kategorier dataene dine faller inn før du legger det inn i statistisk programvare. Ellers risikerer du å ende opp med helt rimelig utseende gibberish.

Graf dataene dine

Å få en følelse av hvordan dataene dine distribueres er viktig. Du kan kjøre statistiske prosedyrer til du er blå i ansiktet, men ingen av dem vil gi deg så mye innblikk i hvordan dataene ser ut som en enkel graf.

Verifiser data nøyaktighet

Når du er komfortabel at dataene er formatert slik du vil ha den, må du likevel kontrollere at den er nøyaktig og at det er fornuftig. Dette trinnet krever at du har litt kunnskap om fagområdet du jobber med.

Det er egentlig ikke en kutt-tørket tilnærming for å kontrollere data nøyaktighet. Den grunnleggende ideen er å formulere noen egenskaper som du tror dataene skal vise og teste dataene for å se om disse egenskapene holder. Er aksjekursene alltid positive? Gjør alle produktkoder samsvar med listen over gyldige? I hovedsak prøver du å finne ut om dataene virkelig er det du har blitt fortalt det er.

Identifiser utestengere

Outliers er datapunkter som ikke er slått sammen med resten av dataene. De er enten veldig store eller svært små verdier i forhold til resten av datasettet.

Outliers er problematiske fordi de alvorlig kan kompromittere statistikk og statistiske prosedyrer. En enkelt outlier kan ha stor innvirkning på verdien av gjennomsnittet. Fordi gjennomsnittet er ment å representere sentrum av dataene, på en måte, gjør denne ene outlier den gjennomsnittlige ubrukelige.

Når man står overfor outliers, er den vanligste strategien å slette dem. I enkelte tilfeller kan du imidlertid ta hensyn til dem. I disse tilfellene er det vanligvis ønskelig å gjøre analysen din to ganger - en gang med outliers inkludert og en gang med utelukker ekskludert. Dette lar deg vurdere hvilken metode som gir mer nyttige resultater.

Håndtere manglende verdier

Manglende verdier er en av de vanligste (og irriterende) dataproblemer du vil støte på. Din første impuls kan være å slippe poster med manglende verdier fra analysen din. Problemet med dette er at manglende verdier ofte ikke bare er tilfeldige, små dataintegninger.

Kontroller antagelsene dine om hvordan dataene distribueres.

Mange statistiske prosedyrer er avhengig av antagelsen om at dataene distribueres på en bestemt måte. Hvis den antakelsen ikke er tilfellet, lider nøyaktigheten av dine spådommer.

Den vanligste forutsetningen for modelleringsteknikker diskutert i denne boken er at dataene distribueres normalt.

Eller ikke. I tilfeller der dataene ikke distribueres som du trenger det, er alt ikke nødvendigvis tapt. Det finnes en rekke måter å transformere data på for å få fordelingen til den formen du trenger.

En av de beste måtene å verifisere nøyaktigheten av en statistisk modell er å faktisk teste den mot dataene når den er bygget. En måte å gjøre det på er å tilfeldig dele opp datasettet ditt i to filer. Du kan kalle disse filene Analyse og Test, henholdsvis.

Du må dele dataene tilfeldig for å være effektive. Du kan ikke bare dele datasettet i den øverste halvdelen og den nederste halvdelen, for eksempel. Nesten alle datafiler sorteres på en eller annen måte - etter dato hvis ingenting annet. Dette introduserer systematiske mønstre som vil gi forskjellige deler av filen forskjellige statistiske egenskaper. Når du deler filen tilfeldig, gir du hver rekord en lik sjanse til å være i begge filer. Figurativt blar du en mynt for hver plate for å bestemme hvilken fil den går inn i. Tilfeldighet gir begge filene de samme statistiske egenskapene som de opprinnelige dataene.

Når du har delt datasettet, må du legge til testfilen. Fortsett deretter å bygge din prediktive modell ved hjelp av analysefilen. Når modellen er bygget, bruk den til testfilen og se hvordan den gjør det.

Testmodeller på denne måten bidrar til å beskytte mot et fenomen som kalles overmontering . I hovedsak er det mulig for statistiske prosedyrer å huske datafilen i stedet for å oppdage meningsfulle forhold mellom variablene. Hvis overmontering skjer, vil modellen teste ganske dårlig mot testfilen.

Sikkerhetskopiere og dokumentere alt du gjør

Fordi statistisk programvare blir så enkel å bruke, er det et stykke kake for å begynne å generere rapporter og grafer, for ikke å nevne datafiler.Du kan kjøre prosedyrer bokstavelig talt ved å trykke på en knapp. Du kan generere flere dusin grafer basert på forskjellige datatransformasjoner om noen få minutter. Det gjør det ganske enkelt å miste oversikten over hva du har gjort, og hvorfor.

Det er viktig å sørge for at du holder en skriftlig oversikt over hva du skal gjøre. Grafer bør merkes med navnet (og versjonen) av dataene som ble brukt til å lage dem. Statistiske prosedyrer som du bygger må lagres og dokumenteres.

Det er også viktig å sikkerhetskopiere datafilene dine. I løpet av analysen vil du sannsynligvis opprette flere versjoner av dataene dine som reflekterer ulike korrigeringer og transformasjon av variabler. Du bør lagre prosedyrene som opprettet disse versjonene. De bør også dokumenteres på en måte som beskriver hvilke transformasjoner du har gjort og hvorfor.

Dokumentasjon er ikke noen favorittoppgave, men vi snakker fra erfaring når vi sterkt oppfordrer deg til ikke å stole på minnet når det gjelder dine analyseprosjekter.

Ved å arbeide gjennom trinnene som nettopp er beskrevet, maksimerer du påliteligheten til dine statistiske modeller. I mange tilfeller er prep-arbeidet faktisk mer tidkrevende enn selve modellen. Men det er nødvendig. Og du vil takke deg til slutt for å jobbe gjennom det metodisk.