Manglende verdier i dataene dine - dummies - Personlig finansiering 2024

Video: 20 Essential Excel Functions with Downloadable Reference Guide 2024

En av de mest vanlige og mest storslåtte dataproblemer som skal håndteres, mangler data. Filer kan være ufullstendige fordi poster ble tapt eller en lagringsenhet fylt opp. Eller enkelte datafelt kan ikke inneholde data for noen poster. Det første av disse problemene kan diagnostiseres ved bare å verifisere rekordtall for filer. Det andre problemet er vanskeligere å håndtere.

For å si det enkelt, når du finner et felt som inneholder manglende verdier, har du to valg:

Ignorer den.
Pakk noe i feltet.

Ignorerer problemet

I enkelte tilfeller kan du bare finne et enkelt felt med et stort antall manglende verdier. I så fall er det enkleste å gjøre å bare ignorere feltet. Ikke ta med det i analysen din.

En annen måte å ignorere problemet på er å ignorere posten. Bare slett posten som inneholder de manglende dataene. Dette kan være fornuftig hvis det bare er noen få falske poster. Men hvis det finnes flere datafelt med betydelig antall manglende verdier, kan denne tilnærmingen krympe rekordtellingen til et uakseptabelt nivå.

En annen ting å se etter før du bare sletter poster er et tegn på et mønster. For eksempel, anta at du analyserer et datasett relatert til kredittkortbalanser landsomfattende. Det kan hende du finner en hel masse poster som viser $ 0. 00 saldoer (kanskje rundt halvparten av postene). Dette er ikke i seg selv en indikasjon på manglende data. Men hvis alle postene fra, sier California, viser $ 0. 00 saldoer, som indikerer et potensielt manglende verdier problem. Og det er ikke en som vil være hensiktsmessig løst ved å slette alle postene fra den største staten i landet. I dette tilfellet er det sannsynligvis et systemproblem og indikerer at en ny fil skal opprettes.

Generelt er sletting av poster en enkel, men ikke ideell løsning på problemer med manglende verdi. Hvis problemet er relativt lite, og det er ikke noe merkbart mønster for utelatelsene, så kan det være greit å overvinne de overordnede postene og fortsette. Men ofte er en mer highbrow tilnærming garantert.

Fyll ut de manglende dataene

Fylling av de manglende dataene er å gi et utdannet gjetning om hva som ville ha vært i det feltet. Det er gode og dårlige måter å gjøre dette på. En enkel (men dårlig) tilnærming er å erstatte de manglende verdiene med gjennomsnittet av de ikke-savnede. I ikke-numeriske felt kan du bli fristet til å fylle ut de manglende postene med den vanligste verdien i de andre postene (modusen).

Disse tilnærmingene er dessverre fortsatt ofte brukt i enkelte forretningsapplikasjoner.Men de er allment betraktet av statistikere som dårlige ideer. For det første er hele poenget med statistisk analyse å finne data som skiller et resultat fra en annen. Ved å erstatte alle de manglende postene med samme verdi, har du ikke differensiert noe.

Den mer highbrow tilnærmingen er å forsøke å finne en måte å forutsi på en meningsfull måte hvilken verdi som skal fylles inn på hver plate som mangler en verdi. Dette innebærer å se på de komplette postene og prøve å finne ledetråder om hva den manglende verdien kan være.

Anta at du analyserer en demografisk fil for å forutsi sannsynlige kjøpere av en av produktene dine. I den filen har du blant annet informasjon om sivilstatus, antall barn og antall biler. Av en eller annen grunn mangler antall autofelt i en tredjedel av postene.

Ved å analysere de to andre feltene - sivilstatus og antall barn - kan du oppdage noen mønstre. Enkeltpersoner har en tendens til å ha en bil. Gift personer uten barn har en tendens til å ha to biler. Gift personer med mer enn ett barn kan være mer sannsynlig å ha tre biler. På denne måten kan du gjette på de manglende verdiene på en måte som faktisk skiller arkene. Mer om denne tilnærmingen til å komme.

Det er et generelt begrep i statistikk og databehandling som refererer til tvilsomme data. Begrepet støyende brukes til å beskrive data som er upålitelige, korrupte eller ellers mindre enn uberørte. Manglende data er bare ett eksempel på dette. En detaljert beskrivelse av teknikker for rydding av støyende data generelt er utenfor omfanget av denne boken. Faktisk er dette et aktivt forskningsområde i statistisk teori. Det faktum at all støy ikke er så lett å oppdage som manglende verdier gjør det vanskelig å håndtere.