Klargjøre dataene dine for Prediktiv Analytics - Dummies

Video: Our Miss Brooks: House Trailer / Friendship / French Sadie Hawkins Day 2025

Når du har definert målene for modellen, er neste trinn i predictive analytics å identifisere og forberede dataene du vil bruke til å bygge modellen. Følgende informasjon berører de viktigste aktivitetene. Den generelle sekvensen av trinn ser slik ut:

Identifiser datakilder.

Dataene kan være i forskjellige formater eller oppholde seg på forskjellige steder.
Identifiser hvordan du får tilgang til dataene.

Noen ganger trenger du å skaffe tredjepartsdata eller data som eies av en annen divisjon i organisasjonen din, etc.
Vurder hvilke variabler som skal inkluderes i analysen din.
En standard tilnærming er å starte med et bredt spekter av variabler og eliminere de som ikke gir noen prediktiv verdi for modellen.
Bestem om du skal bruke avledede variabler.

I mange tilfeller vil en avledd variabel (for eksempel pris per inntjeningsgrad som brukes til å analysere aksjekurser) ha større direkte innvirkning på modellen enn den råvariabelen.
Utforsk kvaliteten på dataene dine, og søk etter å forstå både dens tilstand og begrensninger.

Nøyaktigheten av modellens prognoser er direkte relatert til variablene du velger, og kvaliteten på dataene dine. Du vil gjerne svare på noen dataspesifikke spørsmål på dette tidspunktet:
- Er dataene ferdige?
- Har det noen utestengere?
- Skal dataene renses?
- Trenger du å fylle ut manglende verdier, beholde dem som de er, eller eliminere dem helt?

Å forstå dine data og dens egenskaper kan hjelpe deg med å velge algoritmen som vil være mest nyttig når du bygger din modell. For eksempel:

Regresjonsalgoritmer kan brukes til å analysere tidsseriedata.
Klassifikasjonsalgoritmer kan brukes til å analysere diskrete data.
Forening algoritmer kan brukes til data med korrelerte attributter.

Individuelle algoritmer og prediktive teknikker har forskjellige svakheter og sterke sider. Viktigst, nøyaktigheten av modellen er avhengig av å ha både en god mengde og kvaliteten på dataene. Dine data skal ha et tilstrekkelig antall poster for å gi statistisk signifikante resultater.

Samle relevante data (helst mange poster over en lang periode), forhåndsbehandle og trekke ut funksjonene med de fleste prediktive verdier, vil være hvor du bruker mesteparten av tiden din. Men du må fortsatt velge algoritmen, en algoritme som skal passe til forretningsproblemet.

Databehandling er spesifikk for prosjektet du jobber med, og algoritmen du velger å ansette.Avhengig av prosjektets krav, vil du klargjøre dataene dine tilsvarende og mate den til algoritmen når du bygger modellen for å møte forretningsbehovene.

Datasettet som brukes til å trene og teste modellen må inneholde relevant forretningsinformasjon for å svare på problemet du prøver å løse. Hvis målet ditt (for eksempel) er å avgjøre hvilken kunde som er sannsynlig å kvele, må datasettet du velger, inneholde informasjon om kunder som har churned i fortiden i tillegg til kunder som ikke har det.

Noen modeller som er laget for å min data og gir mening om sine underliggende relasjoner - for eksempel de som er bygd med klyngalgoritmer - trenger ikke å ha et bestemt sluttresultat i tankene.

Underfitting

Underfitting er når modellen din ikke kan oppdage noen relasjoner i dataene dine. Dette er vanligvis en indikasjon på at viktige variabler - de med prediktiv kraft - ikke var inkludert i analysen.

Hvis variablene som brukes i modellen din ikke har høy prediktiv effekt, kan du prøve å legge til nye domenespesifikke variabler og gjenopprette modellen din. Målet er å forbedre modellens ytelse på treningsdataene.

Et annet problem å se etter er seasonality (når du har sesongmessige mønstre, hvis du ikke analyserer flere årstider, kan du komme i trøbbel.) For eksempel, en lageranalyse som bare inneholder data fra en tyr marked (hvor generelle aksjekurser går opp) tar ikke hensyn til kriser eller bobler som kan gi store korrigeringer til den samlede ytelsen til aksjene. Mangler å inkludere data som spenner over både bull og bære markeder (når de generelle aksjekursene faller) holder modellen fra å produsere det best mulige porteføljevalg.

Overfitting

Overfitting er når modellen inneholder data som ikke har spådom, men det er bare spesifikt for datasettet du analyserer. Støy - tilfeldige variasjoner i datasettet - kan finne veien inn i modellen, slik at kjøring av modellen på et annet datasett gir en stor nedgang i modellens prediktive ytelse og nøyaktighet.