Hjem Personlig finansiering Hvordan du klargjør data for en prediktiv analyse modell - dummies

Hvordan du klargjør data for en prediktiv analyse modell - dummies

Innholdsfortegnelse:

Video: Our Miss Brooks: House Trailer / Friendship / French Sadie Hawkins Day 2025

Video: Our Miss Brooks: House Trailer / Friendship / French Sadie Hawkins Day 2025
Anonim

Når du har definert målene for modellen for prediktiv analyse, er neste trinn å identifisere og forberede dataene du vil bruke til å bygge din modell. Den generelle sekvensen av trinn ser slik ut:

  1. Identifiser datakilder.

    Dataene kan være i forskjellige formater eller oppholde seg på forskjellige steder.

  2. Identifiser hvordan du får tilgang til dataene.

    Noen ganger trenger du å skaffe tredjepartsdata, eller data eid av en annen divisjon i organisasjonen din, etc.

  3. Vurder hvilke variabler som skal inkluderes i analysen din.

    En standard tilnærming er å starte med et bredt spekter av variabler og eliminere de som ikke gir noen prediktive verdier for modellen.

  4. Bestem om du skal bruke avledede variabler.

    I mange tilfeller vil en avledd variabel (for eksempel pris per inntjeningsgrad som brukes til å analysere aksjekurser) ha større direkte innvirkning på modellen enn den råvariabelen.

  5. Utforsk kvaliteten på dataene dine, og søk etter å forstå både dens tilstand og begrensninger.

    Nøyaktigheten av modellens prognoser er direkte relatert til variablene du velger, og kvaliteten på dataene dine. Du vil gjerne svare på noen dataspesifikke spørsmål på dette tidspunktet:

    • Er dataene ferdige?

    • Har det noen utestengere?

    • Skal dataene renses?

    • Trenger du å fylle ut manglende verdier, beholde dem som de er, eller eliminere dem helt?

Å forstå dine data og dens egenskaper kan hjelpe deg med å velge algoritmen som vil være mest nyttig når du bygger din modell. For eksempel:

  • Regresjonsalgoritmer kan brukes til å analysere tidsseriedata.

  • Klassifikasjonsalgoritmer kan brukes til å analysere diskrete data.

  • Forening algoritmer kan brukes til data med korrelerte attributter.

Datasettet som brukes til å trene og teste modellen må inneholde relevant forretningsinformasjon for å svare på problemet du prøver å løse. Hvis målet ditt (for eksempel) er å avgjøre hvilken kunde som er sannsynlig å kvele, må datasettet du velger, inneholde informasjon om kunder som har churned i fortiden i tillegg til kunder som ikke har det.

Noen modeller som er laget for å min data og gir mening om sine underliggende relasjoner - for eksempel de som er bygd med klyngalgoritmer - trenger ikke å ha et bestemt sluttresultat i tankene.

To problemer oppstår når du håndterer data mens du bygger din modell: undermontering og overfitting.

Underfitting

Underfitting er når modellen din ikke kan oppdage noen relasjoner i dataene dine.Dette er vanligvis en indikasjon på at viktige variabler - de med prediktiv kraft - ikke var inkludert i analysen. For eksempel utgjør en lageranalyse som bare inneholder data fra et oksemarked (hvor generelle aksjekurser går opp) ikke for kriser eller bobler som kan gi store korrigeringer til den samlede ytelsen til aksjene.

Mangler å inkludere data som spenner over både bull og bærer markeder (når de generelle aksjekursene faller) holder modellen fra å produsere det best mulige porteføljevalg.

Overfitting

Overfitting er når modellen inneholder data som ikke har spådom, men det er bare spesifikt for datasettet du analyserer. Støy - tilfeldige variasjoner i datasettet - kan finne veien inn i modellen, slik at kjøring av modellen på et annet datasett gir en stor nedgang i modellens prediktive ytelse og nøyaktighet. Den tilhørende sidebaret gir et eksempel.

Hvis modellen din fungerer bra på et bestemt datasett, og bare underpresterer når du tester det på et annet datasett, mistenker du overfitting.

Hvordan du klargjør data for en prediktiv analyse modell - dummies

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Reise fotografering kamera sammenligning diagram - dummies

Reise fotografering kamera sammenligning diagram - dummies

Fra smarte telefoner til punkt-og-skyte og digitale speilreflekskameraer, du har en mange fotograferingsvalg der ute. Bruk følgende diagram for å se hvilken type kamera som passer best for deg. Smartphone Point-and-shoot dSLR Bildesensor Kvalitet Lav til middels Medium Høy Vannbestandig (egnet for basseng) Sjeldne Få modeller Sjeldne Optiske Zoom Lav ...

Ta et makrofoto-dummies

Ta et makrofoto-dummies

Fotografi (makrofotografi) gir deg den som ser bildene dine, utsikt over verden ikke normalt sett av det blotte øye. De fleste kameraer, selv smarttelefoner, kan skyte ting med en rimelig nærhet med en viss grad av klarhet og fokus. Mens du reiser, finner du ting som skyter nærbilde, for eksempel hva du spiser til middag, en merkelig feil, ...

Forestille et Moving Object - dummies

Forestille et Moving Object - dummies

Når du ser et bilde, skjønner du selv hva som skjedde da det ble tatt. Noen bilder kan innebære bevegelse eller aktivitet. For eksempel kan du fokusere på en sykkel som beveger seg nedover gaten med bygningene bak den sløret. Dette er annerledes enn grunne dybdeskarphet, men fordi blenderåpningen ikke er det som skaper ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...