Hjem Personlig finansiering 8 Beste Practices in Data Preparation - dummies

8 Beste Practices in Data Preparation - dummies

Innholdsfortegnelse:

Video: Google Data Center Efficiency Best Practices -- Full Video 2024

Video: Google Data Center Efficiency Best Practices -- Full Video 2024
Anonim

Statistiske programvarepakker er svært kraftige disse dager, men de kan ikke overvinne data med dårlig kvalitet. Følgende er en sjekkliste over ting du må gjøre før du går av å bygge statistiske modeller.

Kontroller dataformater

Analysen din starter alltid med en rå datafil. Rå datafiler kommer i mange forskjellige former og størrelser. Mainframe-data er forskjellig fra PC-data, regnearkdata er formatert annerledes enn webdata, og så videre. Og i en alder av store data, vil du sikkert stå overfor data fra en rekke kilder. Ditt første skritt i å analysere dataene dine er å sørge for at du kan lese filene du får.

Du må faktisk se på hva hvert felt inneholder. For eksempel er det ikke lurt å stole på at bare fordi et felt er oppført som et tegnfelt, inneholder det faktisk tegndata.

Verifiser datatyper

Alle data faller inn i en av fire kategorier som påvirker hvilken type statistikk du kan bruke riktig på:

  • Nominelle data er egentlig bare et navn eller en identifikator.

  • Ordinære data setter poster i rekkefølge fra laveste til høyeste.

  • Intervalldata representerer verdier hvor forskjellene mellom dem er sammenlignbare.

  • Forholdsdata er som intervalldata, bortsett fra at det også gir en verdi på 0.

Det er viktig å forstå hvilke kategorier dataene dine faller inn før du legger det inn i statistisk programvare. Ellers risikerer du å ende opp med helt rimelig utseende gibberish.

Graf dataene dine

Å få en følelse av hvordan dataene dine distribueres er viktig. Du kan kjøre statistiske prosedyrer til du er blå i ansiktet, men ingen av dem vil gi deg så mye innblikk i hvordan dataene ser ut som en enkel graf.

Verifiser data nøyaktighet

Når du er komfortabel at dataene er formatert slik du vil ha den, må du likevel kontrollere at den er nøyaktig og at det er fornuftig. Dette trinnet krever at du har litt kunnskap om fagområdet du jobber med.

Det er egentlig ikke en kutt-tørket tilnærming for å kontrollere data nøyaktighet. Den grunnleggende ideen er å formulere noen egenskaper som du tror dataene skal vise og teste dataene for å se om disse egenskapene holder. Er aksjekursene alltid positive? Gjør alle produktkoder samsvar med listen over gyldige? I hovedsak prøver du å finne ut om dataene virkelig er det du har blitt fortalt det er.

Identifiser utestengere

Outliers er datapunkter som ikke er slått sammen med resten av dataene. De er enten veldig store eller svært små verdier i forhold til resten av datasettet.

Outliers er problematiske fordi de alvorlig kan kompromittere statistikk og statistiske prosedyrer. En enkelt outlier kan ha stor innvirkning på verdien av gjennomsnittet. Fordi gjennomsnittet er ment å representere sentrum av dataene, på en måte, gjør denne ene outlier den gjennomsnittlige ubrukelige.

Når man står overfor outliers, er den vanligste strategien å slette dem. I enkelte tilfeller kan du imidlertid ta hensyn til dem. I disse tilfellene er det vanligvis ønskelig å gjøre analysen din to ganger - en gang med outliers inkludert og en gang med utelukker ekskludert. Dette lar deg vurdere hvilken metode som gir mer nyttige resultater.

Håndtere manglende verdier

Manglende verdier er en av de vanligste (og irriterende) dataproblemer du vil støte på. Din første impuls kan være å slippe poster med manglende verdier fra analysen din. Problemet med dette er at manglende verdier ofte ikke bare er tilfeldige, små dataintegninger.

Kontroller antagelsene dine om hvordan dataene distribueres.

Mange statistiske prosedyrer er avhengig av antagelsen om at dataene distribueres på en bestemt måte. Hvis den antakelsen ikke er tilfellet, lider nøyaktigheten av dine spådommer.

Den vanligste forutsetningen for modelleringsteknikker diskutert i denne boken er at dataene distribueres normalt.

Eller ikke. I tilfeller der dataene ikke distribueres som du trenger det, er alt ikke nødvendigvis tapt. Det finnes en rekke måter å transformere data på for å få fordelingen til den formen du trenger.

En av de beste måtene å verifisere nøyaktigheten av en statistisk modell er å faktisk teste den mot dataene når den er bygget. En måte å gjøre det på er å tilfeldig dele opp datasettet ditt i to filer. Du kan kalle disse filene Analyse og Test, henholdsvis.

Du må dele dataene tilfeldig for å være effektive. Du kan ikke bare dele datasettet i den øverste halvdelen og den nederste halvdelen, for eksempel. Nesten alle datafiler sorteres på en eller annen måte - etter dato hvis ingenting annet. Dette introduserer systematiske mønstre som vil gi forskjellige deler av filen forskjellige statistiske egenskaper. Når du deler filen tilfeldig, gir du hver rekord en lik sjanse til å være i begge filer. Figurativt blar du en mynt for hver plate for å bestemme hvilken fil den går inn i. Tilfeldighet gir begge filene de samme statistiske egenskapene som de opprinnelige dataene.

Når du har delt datasettet, må du legge til testfilen. Fortsett deretter å bygge din prediktive modell ved hjelp av analysefilen. Når modellen er bygget, bruk den til testfilen og se hvordan den gjør det.

Testmodeller på denne måten bidrar til å beskytte mot et fenomen som kalles overmontering . I hovedsak er det mulig for statistiske prosedyrer å huske datafilen i stedet for å oppdage meningsfulle forhold mellom variablene. Hvis overmontering skjer, vil modellen teste ganske dårlig mot testfilen.

Sikkerhetskopiere og dokumentere alt du gjør

Fordi statistisk programvare blir så enkel å bruke, er det et stykke kake for å begynne å generere rapporter og grafer, for ikke å nevne datafiler.Du kan kjøre prosedyrer bokstavelig talt ved å trykke på en knapp. Du kan generere flere dusin grafer basert på forskjellige datatransformasjoner om noen få minutter. Det gjør det ganske enkelt å miste oversikten over hva du har gjort, og hvorfor.

Det er viktig å sørge for at du holder en skriftlig oversikt over hva du skal gjøre. Grafer bør merkes med navnet (og versjonen) av dataene som ble brukt til å lage dem. Statistiske prosedyrer som du bygger må lagres og dokumenteres.

Det er også viktig å sikkerhetskopiere datafilene dine. I løpet av analysen vil du sannsynligvis opprette flere versjoner av dataene dine som reflekterer ulike korrigeringer og transformasjon av variabler. Du bør lagre prosedyrene som opprettet disse versjonene. De bør også dokumenteres på en måte som beskriver hvilke transformasjoner du har gjort og hvorfor.

Dokumentasjon er ikke noen favorittoppgave, men vi snakker fra erfaring når vi sterkt oppfordrer deg til ikke å stole på minnet når det gjelder dine analyseprosjekter.

Ved å arbeide gjennom trinnene som nettopp er beskrevet, maksimerer du påliteligheten til dine statistiske modeller. I mange tilfeller er prep-arbeidet faktisk mer tidkrevende enn selve modellen. Men det er nødvendig. Og du vil takke deg til slutt for å jobbe gjennom det metodisk.

8 Beste Practices in Data Preparation - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...