Video: No Rapture, No Escape? 2025
Før du kjører en prediktiv analyse, må du sørge for at dataene er rene for fremmede ting før du kan bruke det i din modell. Dette inkluderer å finne og rette eventuelle poster som inneholder feilverdier, og forsøker å fylle ut eventuelle manglende verdier. Du må også bestemme om du vil inkludere dupliserte poster (to kundekontoer, for eksempel).
Det overordnede målet er å sikre integriteten til den informasjonen du bruker for å bygge din prediktive modell. Vær spesielt oppmerksom på at dataene er fullstendighet, korrekthet og aktualitet.
Det er nyttig å lage beskrivende statistikk (kvantitative egenskaper) for ulike felt, for eksempel beregning av min og max, kontroll frekvensfordeling (hvor ofte skjer noe) og verifisere de forventede områdene. Kjører en vanlig sjekk kan hjelpe deg med å flagge data som er utenfor det forventede området for videre undersøkelse. Eventuelle poster som viser pensjonister med fødselsdatoer på 1990-tallet, kan flagges av denne metoden.
Dessuten er kryssjekkingen viktig for at dataene skal være korrekte. For dypere analyse av dataegenskapene og identifisering av forholdet mellom dataregistre, kan du benytte data profiling (analysere data tilgjengelighet og samle statistikk om datakvaliteten) og visualiseringsverktøy.
Manglende data kan skyldes at bestemt informasjon ikke ble registrert. I et slikt tilfelle kan du forsøke å fylle ut så mye du kan; Egnede standardinnstillinger kan enkelt legges til for å fylle blankene i bestemte felt.
For eksempel på pasienter på en sykehusmødested der kjønnsfeltet mangler en verdi, kan søknaden bare fylle den inn som kvinne. For den saks skyld, for enhver mann som ble tatt inn på et sykehus med en manglende post for graviditetsstatus, kan denne posten tilsvarende fylles ut som ikke aktuelt.
En manglende postnummer for en adresse kan utledes fra gatenavnet og byen som er oppgitt i den adressen.
I tilfeller der informasjonen er ukjent eller ikke kan utledes, må du bruke verdier andre enn et tomt mellomrom for å indikere at dataene mangler uten å påvirke analysens korrekthet. Et tomt i dataene kan bety flere ting, de fleste er ikke gode eller nyttige. Når det er mulig, bør du angi innholdet av det blanke med meningsfylt plassfyller.
På samme måte som det er mulig å definere en rose i en kornfelt som en luke, kan utjevningene bety forskjellige ting for ulike analyser.Det er vanlig at noen modeller skal bygges utelukkende for å spore de utestengene og flagge dem.
Svindel-deteksjonsmodeller og overvåkning av kriminelle aktiviteter er interessert i de avvikende, som i slike tilfeller indikerer noe uønsket sted. Det anbefales derfor å holde utliggerne i datasettet i slike tilfeller. Men når outliers anses som uregelmessigheter i dataene - og vil bare skjelne analysene og føre til feilaktige resultater - fjern dem fra dataene dine.
Duplisering i dataene kan også være nyttig eller en gener; noe av det kan være nødvendig, kan indikere verdi, og kan gjenspeile en nøyaktig tilstand av dataene. For eksempel kan en oversikt over en kunde med flere kontoer representeres med flere oppføringer som (teknisk, uansett) er dupliserte og gjentatte av de samme postene.
På samme måte, når de dupliserte postene ikke bidrar til verdien av analysen og ikke er nødvendig, kan fjerning av dem være av stor verdi. Dette gjelder spesielt for store datasett hvor fjerning av dupliserte poster kan forenkle dataens kompleksitet og redusere tiden som trengs for analyse.
Du kan forebygge å forhindre at feil data kommer inn i systemene dine ved å vedta bestemte prosedyrer:
-
Instituttets kvalitetstjekker og data validering for alle data som samles inn.
-
Tillat kundene å validere og selvopprette deres personlige data.
-
Gi kundene dine mulige og forventede verdier å velge mellom.
-
Rutinemessig kontrollerer integriteten, konsistensen og nøyaktigheten av dataene.
