Fase 4 av CRISP-DM Prosessmodell: Modeling - dummies

Modeling er delen av prosessmodellen for kryssindustriens standardprosess for data mining (CRISP-DM) gruvearbeidere som best. Dine data er allerede i god form, og nå kan du søke etter nyttige mønstre i dataene dine.

Modelleringsfasen inneholder fire oppgaver. Disse er

Valg av modelleringsteknikker
Utforming av test (er)
Byggemodell (er)
Vurdering av modell (er)

Oppgave: Velge modelleringsteknikker

Den fantastiske verden av data mining tilbyr mange modeller for modelleringsteknikker, men ikke alle av dem passer til dine behov. Begrens listen basert på hvilke typer involverte variabler, valg av teknikker som er tilgjengelige i verktøyene dine, og eventuelle forretningsforhold som er viktige for deg.

For eksempel favoriserer mange organisasjoner metoder med utdata som er lette å tolke, så beslutningstrær eller logistisk regresjon kan være akseptabelt, men nevrale nettverk vil sannsynligvis ikke bli akseptert.

Leveranser for denne oppgaven inkluderer to rapporter:

Modelingsteknikk: Spesifiser hvilken teknikk (r) du vil bruke.
Modelleringsforutsetninger: Mange modelleringsteknikker er basert på visse antagelser. For eksempel kan en modelltype være beregnet for bruk med data som har en bestemt type distribusjon. Dokumentere disse forutsetningene i denne rapporten.

Statistikere er godt informert, strenge og masete om forutsetninger. Det er ikke nødvendigvis sant for data minearrangører, og det er ikke et krav om å bli data minearter. Hvis du har dyp statistisk kunnskap og forstår antagelsene bak modellene du velger, kan du være streng og masete om forutsetninger.

Men mange data minearrangører, spesielt nybegynner data miners, ikke oppstyr mye over antagelser. Alternativet er testing - mye og mye testing - av modellene dine.

Oppgave: Designe tester

Testen i denne oppgaven er testen du vil bruke til å bestemme hvor bra modellen fungerer. Det kan være like enkelt som å dele dataene dine i en gruppe tilfeller for modellopplæring og en annen gruppe for modelltesting.

Treningsdata brukes til å passe matematiske skjemaer til datamodellen, og testdata brukes under modellopplæringsprosessen for å unngå overfitting: lage en modell som er perfekt for en datasett, men ingen andre. Du kan også bruke holdout data, data som ikke brukes under modellopplæringsprosessen, for en ekstra test.

Den leverbare for denne oppgaven er din testdesign. Det trenger ikke å være utførlig, men du bør i det minste ta vare på at trenings- og testdataene dine er like, og at du unngår å innføre noen forstyrrelser i dataene.

Oppgave: Byggemodell (er)

Modellering er det som mange mennesker forestiller seg å være hele datamengderens jobb, men det er bare en oppgave med dusinvis! Ikke desto mindre er modellering for å takle bestemte forretningsmessige mål hjertet av data mining yrket.

Leveranser for denne oppgaven inkluderer tre elementer:

Parameterinnstillinger: Når du bygger modeller, gir de fleste verktøy deg muligheten til å justere en rekke innstillinger, og disse innstillingene har innvirkning på strukturen til den endelige modellen. Dokumentér disse innstillingene i en rapport.
Modellbeskrivelser: Beskriv modellene dine. Angi typen modell (for eksempel lineær regresjon eller nevralnett) og variablene som brukes. Forklar hvordan modellen tolkes. Dokumentere eventuelle problemer som oppstår i modelleringsprosessen.
Modeller: Denne leveransen er modellene selv. Noen modelltyper kan enkelt defineres med en enkel likning; andre er altfor komplekse og må overføres i et mer sofistikert format.

Oppgave: Vurdering av modell (er)

Nå vil du se gjennom modellene du har opprettet, teknisk sett og også fra et forretningsperspektiv (ofte med innspill fra forretningseksperter på prosjektgruppen din).

Leveranser for denne oppgaven inkluderer to rapporter:

Modellvurdering: Oppsummerer informasjonen som ble utviklet i modellrevisjonen. Hvis du har opprettet flere modeller, kan du rangere dem basert på din vurdering av verdien til et bestemt program.
Revidert parameterinnstillinger: Du kan velge å finjustere innstillinger som ble brukt til å bygge modellen og utføre en annen modellrute og prøve å forbedre resultatene.

Data mining, som en løk, en Dobos torte, eller en sedimentær stein, har mange lag. Når du bare har begynt i data mining, kan du begynne å forlate parameterinnstillingene til standardverdiene (faktisk kan du ikke engang legge merke til alternativer med mindre du forsøker å se etter dem).

Når du blir komfortabel i din nye data-mining karriere, vil det være fornuftig for deg å finne ut om modellparametere og vite hvordan du kan bruke dem. Dine alternativer varierer mye med typen modell og spesifikt verktøy du bruker.