Hjem Personlig finansiering Manglende verdier i dataene dine - dummies

Manglende verdier i dataene dine - dummies

Innholdsfortegnelse:

Video: 20 Essential Excel Functions with Downloadable Reference Guide 2024

Video: 20 Essential Excel Functions with Downloadable Reference Guide 2024
Anonim

En av de mest vanlige og mest storslåtte dataproblemer som skal håndteres, mangler data. Filer kan være ufullstendige fordi poster ble tapt eller en lagringsenhet fylt opp. Eller enkelte datafelt kan ikke inneholde data for noen poster. Det første av disse problemene kan diagnostiseres ved bare å verifisere rekordtall for filer. Det andre problemet er vanskeligere å håndtere.

For å si det enkelt, når du finner et felt som inneholder manglende verdier, har du to valg:

  • Ignorer den.

  • Pakk noe i feltet.

Ignorerer problemet

I enkelte tilfeller kan du bare finne et enkelt felt med et stort antall manglende verdier. I så fall er det enkleste å gjøre å bare ignorere feltet. Ikke ta med det i analysen din.

En annen måte å ignorere problemet på er å ignorere posten. Bare slett posten som inneholder de manglende dataene. Dette kan være fornuftig hvis det bare er noen få falske poster. Men hvis det finnes flere datafelt med betydelig antall manglende verdier, kan denne tilnærmingen krympe rekordtellingen til et uakseptabelt nivå.

En annen ting å se etter før du bare sletter poster er et tegn på et mønster. For eksempel, anta at du analyserer et datasett relatert til kredittkortbalanser landsomfattende. Det kan hende du finner en hel masse poster som viser $ 0. 00 saldoer (kanskje rundt halvparten av postene). Dette er ikke i seg selv en indikasjon på manglende data. Men hvis alle postene fra, sier California, viser $ 0. 00 saldoer, som indikerer et potensielt manglende verdier problem. Og det er ikke en som vil være hensiktsmessig løst ved å slette alle postene fra den største staten i landet. I dette tilfellet er det sannsynligvis et systemproblem og indikerer at en ny fil skal opprettes.

Generelt er sletting av poster en enkel, men ikke ideell løsning på problemer med manglende verdi. Hvis problemet er relativt lite, og det er ikke noe merkbart mønster for utelatelsene, så kan det være greit å overvinne de overordnede postene og fortsette. Men ofte er en mer highbrow tilnærming garantert.

Fyll ut de manglende dataene

Fylling av de manglende dataene er å gi et utdannet gjetning om hva som ville ha vært i det feltet. Det er gode og dårlige måter å gjøre dette på. En enkel (men dårlig) tilnærming er å erstatte de manglende verdiene med gjennomsnittet av de ikke-savnede. I ikke-numeriske felt kan du bli fristet til å fylle ut de manglende postene med den vanligste verdien i de andre postene (modusen).

Disse tilnærmingene er dessverre fortsatt ofte brukt i enkelte forretningsapplikasjoner.Men de er allment betraktet av statistikere som dårlige ideer. For det første er hele poenget med statistisk analyse å finne data som skiller et resultat fra en annen. Ved å erstatte alle de manglende postene med samme verdi, har du ikke differensiert noe.

Den mer highbrow tilnærmingen er å forsøke å finne en måte å forutsi på en meningsfull måte hvilken verdi som skal fylles inn på hver plate som mangler en verdi. Dette innebærer å se på de komplette postene og prøve å finne ledetråder om hva den manglende verdien kan være.

Anta at du analyserer en demografisk fil for å forutsi sannsynlige kjøpere av en av produktene dine. I den filen har du blant annet informasjon om sivilstatus, antall barn og antall biler. Av en eller annen grunn mangler antall autofelt i en tredjedel av postene.

Ved å analysere de to andre feltene - sivilstatus og antall barn - kan du oppdage noen mønstre. Enkeltpersoner har en tendens til å ha en bil. Gift personer uten barn har en tendens til å ha to biler. Gift personer med mer enn ett barn kan være mer sannsynlig å ha tre biler. På denne måten kan du gjette på de manglende verdiene på en måte som faktisk skiller arkene. Mer om denne tilnærmingen til å komme.

Det er et generelt begrep i statistikk og databehandling som refererer til tvilsomme data. Begrepet støyende brukes til å beskrive data som er upålitelige, korrupte eller ellers mindre enn uberørte. Manglende data er bare ett eksempel på dette. En detaljert beskrivelse av teknikker for rydding av støyende data generelt er utenfor omfanget av denne boken. Faktisk er dette et aktivt forskningsområde i statistisk teori. Det faktum at all støy ikke er så lett å oppdage som manglende verdier gjør det vanskelig å håndtere.

Manglende verdier i dataene dine - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...