Hjem Personlig finansiering Klargjøre dataene dine for Prediktiv Analytics - Dummies

Klargjøre dataene dine for Prediktiv Analytics - Dummies

Innholdsfortegnelse:

Video: Our Miss Brooks: House Trailer / Friendship / French Sadie Hawkins Day 2024

Video: Our Miss Brooks: House Trailer / Friendship / French Sadie Hawkins Day 2024
Anonim

Når du har definert målene for modellen, er neste trinn i predictive analytics å identifisere og forberede dataene du vil bruke til å bygge modellen. Følgende informasjon berører de viktigste aktivitetene. Den generelle sekvensen av trinn ser slik ut:

  1. Identifiser datakilder.

    Dataene kan være i forskjellige formater eller oppholde seg på forskjellige steder.

  2. Identifiser hvordan du får tilgang til dataene.

    Noen ganger trenger du å skaffe tredjepartsdata eller data som eies av en annen divisjon i organisasjonen din, etc.

  3. Vurder hvilke variabler som skal inkluderes i analysen din.

    En standard tilnærming er å starte med et bredt spekter av variabler og eliminere de som ikke gir noen prediktiv verdi for modellen.

  4. Bestem om du skal bruke avledede variabler.

    I mange tilfeller vil en avledd variabel (for eksempel pris per inntjeningsgrad som brukes til å analysere aksjekurser) ha større direkte innvirkning på modellen enn den råvariabelen.

  5. Utforsk kvaliteten på dataene dine, og søk etter å forstå både dens tilstand og begrensninger.

    Nøyaktigheten av modellens prognoser er direkte relatert til variablene du velger, og kvaliteten på dataene dine. Du vil gjerne svare på noen dataspesifikke spørsmål på dette tidspunktet:

    • Er dataene ferdige?
    • Har det noen utestengere?
    • Skal dataene renses?
    • Trenger du å fylle ut manglende verdier, beholde dem som de er, eller eliminere dem helt?

Å forstå dine data og dens egenskaper kan hjelpe deg med å velge algoritmen som vil være mest nyttig når du bygger din modell. For eksempel:

  • Regresjonsalgoritmer kan brukes til å analysere tidsseriedata.
  • Klassifikasjonsalgoritmer kan brukes til å analysere diskrete data.
  • Forening algoritmer kan brukes til data med korrelerte attributter.

Individuelle algoritmer og prediktive teknikker har forskjellige svakheter og sterke sider. Viktigst, nøyaktigheten av modellen er avhengig av å ha både en god mengde og kvaliteten på dataene. Dine data skal ha et tilstrekkelig antall poster for å gi statistisk signifikante resultater.

Samle relevante data (helst mange poster over en lang periode), forhåndsbehandle og trekke ut funksjonene med de fleste prediktive verdier, vil være hvor du bruker mesteparten av tiden din. Men du må fortsatt velge algoritmen, en algoritme som skal passe til forretningsproblemet.

Databehandling er spesifikk for prosjektet du jobber med, og algoritmen du velger å ansette.Avhengig av prosjektets krav, vil du klargjøre dataene dine tilsvarende og mate den til algoritmen når du bygger modellen for å møte forretningsbehovene.

Datasettet som brukes til å trene og teste modellen må inneholde relevant forretningsinformasjon for å svare på problemet du prøver å løse. Hvis målet ditt (for eksempel) er å avgjøre hvilken kunde som er sannsynlig å kvele, må datasettet du velger, inneholde informasjon om kunder som har churned i fortiden i tillegg til kunder som ikke har det.

Noen modeller som er laget for å min data og gir mening om sine underliggende relasjoner - for eksempel de som er bygd med klyngalgoritmer - trenger ikke å ha et bestemt sluttresultat i tankene.

Underfitting

Underfitting er når modellen din ikke kan oppdage noen relasjoner i dataene dine. Dette er vanligvis en indikasjon på at viktige variabler - de med prediktiv kraft - ikke var inkludert i analysen.

Hvis variablene som brukes i modellen din ikke har høy prediktiv effekt, kan du prøve å legge til nye domenespesifikke variabler og gjenopprette modellen din. Målet er å forbedre modellens ytelse på treningsdataene.

Et annet problem å se etter er seasonality (når du har sesongmessige mønstre, hvis du ikke analyserer flere årstider, kan du komme i trøbbel.) For eksempel, en lageranalyse som bare inneholder data fra en tyr marked (hvor generelle aksjekurser går opp) tar ikke hensyn til kriser eller bobler som kan gi store korrigeringer til den samlede ytelsen til aksjene. Mangler å inkludere data som spenner over både bull og bære markeder (når de generelle aksjekursene faller) holder modellen fra å produsere det best mulige porteføljevalg.

Overfitting

Overfitting er når modellen inneholder data som ikke har spådom, men det er bare spesifikt for datasettet du analyserer. Støy - tilfeldige variasjoner i datasettet - kan finne veien inn i modellen, slik at kjøring av modellen på et annet datasett gir en stor nedgang i modellens prediktive ytelse og nøyaktighet.

Klargjøre dataene dine for Prediktiv Analytics - Dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...