Hvordan du klargjør data for en prediktiv analyse modell - dummies

Video: Our Miss Brooks: House Trailer / Friendship / French Sadie Hawkins Day 2025

Når du har definert målene for modellen for prediktiv analyse, er neste trinn å identifisere og forberede dataene du vil bruke til å bygge din modell. Den generelle sekvensen av trinn ser slik ut:

Identifiser datakilder.

Dataene kan være i forskjellige formater eller oppholde seg på forskjellige steder.
Identifiser hvordan du får tilgang til dataene.

Noen ganger trenger du å skaffe tredjepartsdata, eller data eid av en annen divisjon i organisasjonen din, etc.
Vurder hvilke variabler som skal inkluderes i analysen din.

En standard tilnærming er å starte med et bredt spekter av variabler og eliminere de som ikke gir noen prediktive verdier for modellen.
Bestem om du skal bruke avledede variabler.

I mange tilfeller vil en avledd variabel (for eksempel pris per inntjeningsgrad som brukes til å analysere aksjekurser) ha større direkte innvirkning på modellen enn den råvariabelen.
Utforsk kvaliteten på dataene dine, og søk etter å forstå både dens tilstand og begrensninger.

Nøyaktigheten av modellens prognoser er direkte relatert til variablene du velger, og kvaliteten på dataene dine. Du vil gjerne svare på noen dataspesifikke spørsmål på dette tidspunktet:
- Er dataene ferdige?
- Har det noen utestengere?
- Skal dataene renses?
- Trenger du å fylle ut manglende verdier, beholde dem som de er, eller eliminere dem helt?

Å forstå dine data og dens egenskaper kan hjelpe deg med å velge algoritmen som vil være mest nyttig når du bygger din modell. For eksempel:

Regresjonsalgoritmer kan brukes til å analysere tidsseriedata.
Klassifikasjonsalgoritmer kan brukes til å analysere diskrete data.
Forening algoritmer kan brukes til data med korrelerte attributter.

Datasettet som brukes til å trene og teste modellen må inneholde relevant forretningsinformasjon for å svare på problemet du prøver å løse. Hvis målet ditt (for eksempel) er å avgjøre hvilken kunde som er sannsynlig å kvele, må datasettet du velger, inneholde informasjon om kunder som har churned i fortiden i tillegg til kunder som ikke har det.

Noen modeller som er laget for å min data og gir mening om sine underliggende relasjoner - for eksempel de som er bygd med klyngalgoritmer - trenger ikke å ha et bestemt sluttresultat i tankene.

To problemer oppstår når du håndterer data mens du bygger din modell: undermontering og overfitting.

Underfitting

Underfitting er når modellen din ikke kan oppdage noen relasjoner i dataene dine.Dette er vanligvis en indikasjon på at viktige variabler - de med prediktiv kraft - ikke var inkludert i analysen. For eksempel utgjør en lageranalyse som bare inneholder data fra et oksemarked (hvor generelle aksjekurser går opp) ikke for kriser eller bobler som kan gi store korrigeringer til den samlede ytelsen til aksjene.

Mangler å inkludere data som spenner over både bull og bærer markeder (når de generelle aksjekursene faller) holder modellen fra å produsere det best mulige porteføljevalg.

Overfitting

Overfitting er når modellen inneholder data som ikke har spådom, men det er bare spesifikt for datasettet du analyserer. Støy - tilfeldige variasjoner i datasettet - kan finne veien inn i modellen, slik at kjøring av modellen på et annet datasett gir en stor nedgang i modellens prediktive ytelse og nøyaktighet. Den tilhørende sidebaret gir et eksempel.

Hvis modellen din fungerer bra på et bestemt datasett, og bare underpresterer når du tester det på et annet datasett, mistenker du overfitting.