Hjem Personlig finansiering Fase 2 av CRISP-DM Prosessmodellen: Dataforståelse - dummies

Fase 2 av CRISP-DM Prosessmodellen: Dataforståelse - dummies

Innholdsfortegnelse:

Video: The Live Wire - Knowledge Discovery in Databases 2025

Video: The Live Wire - Knowledge Discovery in Databases 2025
Anonim

I den andre fasen av prosessmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM), får du data og verifiserer at det passer for dine behov. Du kan identifisere problemer som fører til at du kommer tilbake til forretningsforståelse og reviderer planen din. Du kan også oppdage feil i din forretningsforståelse, en annen grunn til å revurdere mål og planer.

Dataforståelsesfasen inneholder fire oppgaver . Disse er

  • Gathering data

  • Beskrive data

  • Utforsk data

  • Verifisere datakvalitet

Oppgave: Samle data

Du har nettopp satt mål og definert en data mining plan. Hvert trinn i planen er avhengig av å ha de riktige dataene. Bedre sørg for at du virkelig har dataene!

Bare en levererbar for denne oppgaven: Den første datainnsamlingsrapporten. I rapporten må du verifisere at du har kjøpt dataene eller i det minste fått tilgang til dataene, testet dataadgangsprosessen, og bekreftet at dataene eksisterer. Du må også laste inn data i verktøy som du skal bruke for data mining for å verifisere at verktøyene er kompatible med dataene.

Du kan gjøre mye arbeid for å samle dataene du trenger før du kan skrive denne rapporten. Først vil du lage planen din som følger:

  • Oversikt over datakrav: Lag en liste over hvilke typer data som er nødvendige for å håndtere data mining målene. Utvid listen med detaljer som ønsket tidsintervall og dataformater.

  • Verifiser datatilgjengelighet: Bekreft at de nødvendige dataene eksisterer, og at du kan bruke den. Hvis noen av de ønskede dataene ikke er tilgjengelige, bestem deg hvordan du skal løse dette problemet. Vurder alternativer som

  • Sette inn nye data

  • Definere utvalgskriterier:

  • Identifisere spesifikke datakilder (databaser, filer, dokumenter, og så videre.) du vil bruke. Innenfor disse kildene oppgir du tabellene, feltene og saksintervallene som er relevante for dette prosjektet.

  • Når du har gått gjennom disse trinnene, må du faktisk skaffe dataene. På dette stadiet importerer du dataene i data mining plattformen du skal bruke til prosjektet for å bekrefte at det er mulig å gjøre det, og at du forstår prosessen. I løpet av dette forsøket kan du oppdage begrensninger av programvare (eller maskinvare) du ikke hadde forventet, for eksempel Grenser for antall tilfeller eller felt, eller hvor mye minne du kan bruke

  • Manglende evne til å lese dataformater av kildene dine

    • Vanskelighetsgrad ved mangler i dataene (for eksempel kan du støte på produkter som ikke vil importere eller analysere ufullstendige datasett)

    • Oppsummere samleprosessen i en rapport.Rapporten skal beskrive dine krav og forklare nøyaktig nøyaktig hvilke data du har samlet og fra hvilke kilder. Her bekrefter du at du faktisk har innhentet dataene og at den er kompatibel med data mining plattformen. Hvis du har problemer, vil du forklare hva de var og hvordan du har adressert dem (ved hjelp av alternative kilder, revidere planer, endre format).

    • Den leverbare for denne oppgaven er bare en enkel rapport, men det arbeidet du må gjøre før du kan skrive rapporten vil ikke være enkel! Datatilgang kan være en av de mest utfordrende og frustrerende delene av data-miningprosessen, med både tekniske og forretningsmessige utfordringer.

    Oppgave: Beskrive data

    Nå som du har data, utarbeide en generell beskrivelse av hva du har.

    Den leverbare for denne oppgaven er databeskrivelsesrapporten. I den beskriver du kilden og formatene til dataene, antall tilfeller, tall og beskrivelser av feltene, og annen generell informasjon som kan være viktig. Du foretar også en kort evaluering av dataens egnethet for data mining målene. For eksempel, verifiser at dataene inneholder feltene du forventer og må være der og tilstrekkelig tilfeller for analyse.

    Oppgave: Utforske data

    I denne oppgaven undersøker du dataene nærmere. For hver variabel ser du på rekkevidden av verdier og deres distribusjoner. Du vil bruke enkel datamanipulering og grunnleggende statistiske teknikker for videre kontroll i dataene. Data leting støtter flere formål:

    Bli kjent med dataene.

    Spot tegn på problemer med datakvaliteten.

    • Still scenen for datapreparasjonstrinn.

    • Den leverbare for denne oppgaven er datautforskingsrapporten. Det er stedet å dokumentere noen hypoteser eller innledende funn som du har utviklet under dataundersøkelsen. Denne rapporten skal inneholde en mer detaljert beskrivelse av dataene enn databeskrivelsesrapporten, inkludert distribusjoner, oppsummeringer og eventuelle tegn på datakvalitetsproblemer.

    • Oppgave: Verifisering av datakvalitet

    Du har dataene og du har undersøkt det, og nå må du avgjøre om det er bra nok til å støtte dine mål. Du vil ofte ha noe kvalitetsproblem å adressere, men likevel kunne fortsette, men til tider er datakvaliteten så dårlig at den ikke kan støtte planen din, og du må lete etter alternativer. Noen av de verste dataproblemer vil inneholde

    De dataene du trenger eksisterer ikke. (Har det aldri eksistert, eller ble det kassert? Kan disse dataene hentes og lagres for fremtidig bruk?)

    Det eksisterer, men du kan ikke ha det. (Kan denne begrensningen bli overvunnet?)

    • Du finner alvorlige datakvalitetsproblemer (mange manglende eller feilverdier som ikke kan korrigeres).

    • Den leverbare for denne oppgaven er datakvalitetsrapporten. Dette oppsummerer dataene du har, mindre og store kvalitetsproblemer som du har funnet, og mulige rettsmidler for kvalitetsproblemer eller alternativer (for eksempel bruk av en alternativ dataressurs).Hvis du står overfor alvorlige datakvalitetsproblemer og ikke kan identifisere en tilstrekkelig løsning, må du kanskje anbefale å revurdere mål eller planer.

    Fase 2 av CRISP-DM Prosessmodellen: Dataforståelse - dummies

    Redaktørens valg

    Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

    Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

    GED Science test vil stille spørsmål relatert til beskrivende statistikk. Du kan ofte oppsummere en samling av data (fra et eksperiment, observasjoner eller undersøkelser, for eksempel) ved å bruke beskrivende statistikk, tall som brukes til å oppsummere og analysere dataene og trekke konklusjoner fra det. Beskrivende statistikk for en samling av data inkluderer følgende: Frekvens: ...

    Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

    Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

    Bruk av bevis for å forutsi utfall er en nødvendig ferdighet for GED Science-testen. De største fordelene med vitenskapelige studier kan ofte tilskrives det faktum at deres konklusjoner gjør det mulig for folk å forutsi utfall. (Du vil sikkert ønske vitenskap kan hjelpe deg med å forutsi utfallet ditt på prøve!) Du er vitne til vitenskap i handling hver dag ...

    Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

    Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

    GED Social Studies test vil stille spørsmål som krever at du bestemmer troverdigheten til en forfatter. Det er ikke alltid lett å vurdere om en forfatter er troverdig basert på informasjonen som er gitt i en skriftlig oversikt og referansen, men du kan hente spor ved å nøye undersøke følgende områder: Forfatterens ...

    Redaktørens valg

    Hva skjer i QuickBooks 2013 Setup? - dummies

    Hva skjer i QuickBooks 2013 Setup? - dummies

    Etter at du har installert QuickBooks 2013, kjører du en skjermveiviser for å sette opp QuickBooks for firmaets regnskap. Klart, denne skjermveiviseren kalles QuickBooks Setup. Når du kjører QuickBooks Setup, gir du ganske mye informasjon til QuickBooks. Som en praktisk sak krever oppsettet og oppsettet etter oppsettet at du har ...

    Leverandørmenykommandoer i QuickBooks 2013 - dummies

    Leverandørmenykommandoer i QuickBooks 2013 - dummies

    Når du jobber med betalbar betaling i QuickBooks 2013, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter i QuickBooks 2013 Vendor Center-vinduet viser en liste over leverandører og detaljerte ...

    Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

    Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

    Når du jobber med betalbar betaling i QuickBooks 2014, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter Vendor Center-vinduet viser en liste over leverandører og detaljert leverandørinformasjon for ...