Hjem Personlig finansiering Fase 4 av CRISP-DM Prosessmodell: Modeling - dummies

Fase 4 av CRISP-DM Prosessmodell: Modeling - dummies

Innholdsfortegnelse:

Video: Friendly Guide to Climate Change - and what you can do to help #everytoncounts 2025

Video: Friendly Guide to Climate Change - and what you can do to help #everytoncounts 2025
Anonim

Modeling er delen av prosessmodellen for kryssindustriens standardprosess for data mining (CRISP-DM) gruvearbeidere som best. Dine data er allerede i god form, og nå kan du søke etter nyttige mønstre i dataene dine.

Modelleringsfasen inneholder fire oppgaver. Disse er

  • Valg av modelleringsteknikker

  • Utforming av test (er)

  • Byggemodell (er)

  • Vurdering av modell (er)

Oppgave: Velge modelleringsteknikker

Den fantastiske verden av data mining tilbyr mange modeller for modelleringsteknikker, men ikke alle av dem passer til dine behov. Begrens listen basert på hvilke typer involverte variabler, valg av teknikker som er tilgjengelige i verktøyene dine, og eventuelle forretningsforhold som er viktige for deg.

For eksempel favoriserer mange organisasjoner metoder med utdata som er lette å tolke, så beslutningstrær eller logistisk regresjon kan være akseptabelt, men nevrale nettverk vil sannsynligvis ikke bli akseptert.

Leveranser for denne oppgaven inkluderer to rapporter:

  • Modelingsteknikk: Spesifiser hvilken teknikk (r) du vil bruke.

  • Modelleringsforutsetninger: Mange modelleringsteknikker er basert på visse antagelser. For eksempel kan en modelltype være beregnet for bruk med data som har en bestemt type distribusjon. Dokumentere disse forutsetningene i denne rapporten.

Statistikere er godt informert, strenge og masete om forutsetninger. Det er ikke nødvendigvis sant for data minearrangører, og det er ikke et krav om å bli data minearter. Hvis du har dyp statistisk kunnskap og forstår antagelsene bak modellene du velger, kan du være streng og masete om forutsetninger.

Men mange data minearrangører, spesielt nybegynner data miners, ikke oppstyr mye over antagelser. Alternativet er testing - mye og mye testing - av modellene dine.

Oppgave: Designe tester

Testen i denne oppgaven er testen du vil bruke til å bestemme hvor bra modellen fungerer. Det kan være like enkelt som å dele dataene dine i en gruppe tilfeller for modellopplæring og en annen gruppe for modelltesting.

Treningsdata brukes til å passe matematiske skjemaer til datamodellen, og testdata brukes under modellopplæringsprosessen for å unngå overfitting: lage en modell som er perfekt for en datasett, men ingen andre. Du kan også bruke holdout data, data som ikke brukes under modellopplæringsprosessen, for en ekstra test.

Den leverbare for denne oppgaven er din testdesign. Det trenger ikke å være utførlig, men du bør i det minste ta vare på at trenings- og testdataene dine er like, og at du unngår å innføre noen forstyrrelser i dataene.

Oppgave: Byggemodell (er)

Modellering er det som mange mennesker forestiller seg å være hele datamengderens jobb, men det er bare en oppgave med dusinvis! Ikke desto mindre er modellering for å takle bestemte forretningsmessige mål hjertet av data mining yrket.

Leveranser for denne oppgaven inkluderer tre elementer:

  • Parameterinnstillinger: Når du bygger modeller, gir de fleste verktøy deg muligheten til å justere en rekke innstillinger, og disse innstillingene har innvirkning på strukturen til den endelige modellen. Dokumentér disse innstillingene i en rapport.

  • Modellbeskrivelser: Beskriv modellene dine. Angi typen modell (for eksempel lineær regresjon eller nevralnett) og variablene som brukes. Forklar hvordan modellen tolkes. Dokumentere eventuelle problemer som oppstår i modelleringsprosessen.

  • Modeller: Denne leveransen er modellene selv. Noen modelltyper kan enkelt defineres med en enkel likning; andre er altfor komplekse og må overføres i et mer sofistikert format.

Oppgave: Vurdering av modell (er)

Nå vil du se gjennom modellene du har opprettet, teknisk sett og også fra et forretningsperspektiv (ofte med innspill fra forretningseksperter på prosjektgruppen din).

Leveranser for denne oppgaven inkluderer to rapporter:

  • Modellvurdering: Oppsummerer informasjonen som ble utviklet i modellrevisjonen. Hvis du har opprettet flere modeller, kan du rangere dem basert på din vurdering av verdien til et bestemt program.

  • Revidert parameterinnstillinger: Du kan velge å finjustere innstillinger som ble brukt til å bygge modellen og utføre en annen modellrute og prøve å forbedre resultatene.

Data mining, som en løk, en Dobos torte, eller en sedimentær stein, har mange lag. Når du bare har begynt i data mining, kan du begynne å forlate parameterinnstillingene til standardverdiene (faktisk kan du ikke engang legge merke til alternativer med mindre du forsøker å se etter dem).

Når du blir komfortabel i din nye data-mining karriere, vil det være fornuftig for deg å finne ut om modellparametere og vite hvordan du kan bruke dem. Dine alternativer varierer mye med typen modell og spesifikt verktøy du bruker.

Fase 4 av CRISP-DM Prosessmodell: Modeling - dummies

Redaktørens valg

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

GED Science test vil stille spørsmål relatert til beskrivende statistikk. Du kan ofte oppsummere en samling av data (fra et eksperiment, observasjoner eller undersøkelser, for eksempel) ved å bruke beskrivende statistikk, tall som brukes til å oppsummere og analysere dataene og trekke konklusjoner fra det. Beskrivende statistikk for en samling av data inkluderer følgende: Frekvens: ...

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Bruk av bevis for å forutsi utfall er en nødvendig ferdighet for GED Science-testen. De største fordelene med vitenskapelige studier kan ofte tilskrives det faktum at deres konklusjoner gjør det mulig for folk å forutsi utfall. (Du vil sikkert ønske vitenskap kan hjelpe deg med å forutsi utfallet ditt på prøve!) Du er vitne til vitenskap i handling hver dag ...

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

GED Social Studies test vil stille spørsmål som krever at du bestemmer troverdigheten til en forfatter. Det er ikke alltid lett å vurdere om en forfatter er troverdig basert på informasjonen som er gitt i en skriftlig oversikt og referansen, men du kan hente spor ved å nøye undersøke følgende områder: Forfatterens ...

Redaktørens valg

Hva skjer i QuickBooks 2013 Setup? - dummies

Hva skjer i QuickBooks 2013 Setup? - dummies

Etter at du har installert QuickBooks 2013, kjører du en skjermveiviser for å sette opp QuickBooks for firmaets regnskap. Klart, denne skjermveiviseren kalles QuickBooks Setup. Når du kjører QuickBooks Setup, gir du ganske mye informasjon til QuickBooks. Som en praktisk sak krever oppsettet og oppsettet etter oppsettet at du har ...

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Når du jobber med betalbar betaling i QuickBooks 2013, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter i QuickBooks 2013 Vendor Center-vinduet viser en liste over leverandører og detaljerte ...

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Når du jobber med betalbar betaling i QuickBooks 2014, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter Vendor Center-vinduet viser en liste over leverandører og detaljert leverandørinformasjon for ...