Hjem Personlig finansiering Fase 2 av CRISP-DM Prosessmodellen: Dataforståelse - dummies

Fase 2 av CRISP-DM Prosessmodellen: Dataforståelse - dummies

Innholdsfortegnelse:

Video: The Live Wire - Knowledge Discovery in Databases 2024

Video: The Live Wire - Knowledge Discovery in Databases 2024
Anonim

I den andre fasen av prosessmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM), får du data og verifiserer at det passer for dine behov. Du kan identifisere problemer som fører til at du kommer tilbake til forretningsforståelse og reviderer planen din. Du kan også oppdage feil i din forretningsforståelse, en annen grunn til å revurdere mål og planer.

Dataforståelsesfasen inneholder fire oppgaver . Disse er

  • Gathering data

  • Beskrive data

  • Utforsk data

  • Verifisere datakvalitet

Oppgave: Samle data

Du har nettopp satt mål og definert en data mining plan. Hvert trinn i planen er avhengig av å ha de riktige dataene. Bedre sørg for at du virkelig har dataene!

Bare en levererbar for denne oppgaven: Den første datainnsamlingsrapporten. I rapporten må du verifisere at du har kjøpt dataene eller i det minste fått tilgang til dataene, testet dataadgangsprosessen, og bekreftet at dataene eksisterer. Du må også laste inn data i verktøy som du skal bruke for data mining for å verifisere at verktøyene er kompatible med dataene.

Du kan gjøre mye arbeid for å samle dataene du trenger før du kan skrive denne rapporten. Først vil du lage planen din som følger:

  • Oversikt over datakrav: Lag en liste over hvilke typer data som er nødvendige for å håndtere data mining målene. Utvid listen med detaljer som ønsket tidsintervall og dataformater.

  • Verifiser datatilgjengelighet: Bekreft at de nødvendige dataene eksisterer, og at du kan bruke den. Hvis noen av de ønskede dataene ikke er tilgjengelige, bestem deg hvordan du skal løse dette problemet. Vurder alternativer som

  • Sette inn nye data

  • Definere utvalgskriterier:

  • Identifisere spesifikke datakilder (databaser, filer, dokumenter, og så videre.) du vil bruke. Innenfor disse kildene oppgir du tabellene, feltene og saksintervallene som er relevante for dette prosjektet.

  • Når du har gått gjennom disse trinnene, må du faktisk skaffe dataene. På dette stadiet importerer du dataene i data mining plattformen du skal bruke til prosjektet for å bekrefte at det er mulig å gjøre det, og at du forstår prosessen. I løpet av dette forsøket kan du oppdage begrensninger av programvare (eller maskinvare) du ikke hadde forventet, for eksempel Grenser for antall tilfeller eller felt, eller hvor mye minne du kan bruke

  • Manglende evne til å lese dataformater av kildene dine

    • Vanskelighetsgrad ved mangler i dataene (for eksempel kan du støte på produkter som ikke vil importere eller analysere ufullstendige datasett)

    • Oppsummere samleprosessen i en rapport.Rapporten skal beskrive dine krav og forklare nøyaktig nøyaktig hvilke data du har samlet og fra hvilke kilder. Her bekrefter du at du faktisk har innhentet dataene og at den er kompatibel med data mining plattformen. Hvis du har problemer, vil du forklare hva de var og hvordan du har adressert dem (ved hjelp av alternative kilder, revidere planer, endre format).

    • Den leverbare for denne oppgaven er bare en enkel rapport, men det arbeidet du må gjøre før du kan skrive rapporten vil ikke være enkel! Datatilgang kan være en av de mest utfordrende og frustrerende delene av data-miningprosessen, med både tekniske og forretningsmessige utfordringer.

    Oppgave: Beskrive data

    Nå som du har data, utarbeide en generell beskrivelse av hva du har.

    Den leverbare for denne oppgaven er databeskrivelsesrapporten. I den beskriver du kilden og formatene til dataene, antall tilfeller, tall og beskrivelser av feltene, og annen generell informasjon som kan være viktig. Du foretar også en kort evaluering av dataens egnethet for data mining målene. For eksempel, verifiser at dataene inneholder feltene du forventer og må være der og tilstrekkelig tilfeller for analyse.

    Oppgave: Utforske data

    I denne oppgaven undersøker du dataene nærmere. For hver variabel ser du på rekkevidden av verdier og deres distribusjoner. Du vil bruke enkel datamanipulering og grunnleggende statistiske teknikker for videre kontroll i dataene. Data leting støtter flere formål:

    Bli kjent med dataene.

    Spot tegn på problemer med datakvaliteten.

    • Still scenen for datapreparasjonstrinn.

    • Den leverbare for denne oppgaven er datautforskingsrapporten. Det er stedet å dokumentere noen hypoteser eller innledende funn som du har utviklet under dataundersøkelsen. Denne rapporten skal inneholde en mer detaljert beskrivelse av dataene enn databeskrivelsesrapporten, inkludert distribusjoner, oppsummeringer og eventuelle tegn på datakvalitetsproblemer.

    • Oppgave: Verifisering av datakvalitet

    Du har dataene og du har undersøkt det, og nå må du avgjøre om det er bra nok til å støtte dine mål. Du vil ofte ha noe kvalitetsproblem å adressere, men likevel kunne fortsette, men til tider er datakvaliteten så dårlig at den ikke kan støtte planen din, og du må lete etter alternativer. Noen av de verste dataproblemer vil inneholde

    De dataene du trenger eksisterer ikke. (Har det aldri eksistert, eller ble det kassert? Kan disse dataene hentes og lagres for fremtidig bruk?)

    Det eksisterer, men du kan ikke ha det. (Kan denne begrensningen bli overvunnet?)

    • Du finner alvorlige datakvalitetsproblemer (mange manglende eller feilverdier som ikke kan korrigeres).

    • Den leverbare for denne oppgaven er datakvalitetsrapporten. Dette oppsummerer dataene du har, mindre og store kvalitetsproblemer som du har funnet, og mulige rettsmidler for kvalitetsproblemer eller alternativer (for eksempel bruk av en alternativ dataressurs).Hvis du står overfor alvorlige datakvalitetsproblemer og ikke kan identifisere en tilstrekkelig løsning, må du kanskje anbefale å revurdere mål eller planer.

    Fase 2 av CRISP-DM Prosessmodellen: Dataforståelse - dummies

    Redaktørens valg

    Speil Lockup (MUP) på Nikon D7100-dummies

    Speil Lockup (MUP) på Nikon D7100-dummies

    En komponent i det optiske systemet til din Nikon D7100 kamera er et speil som beveger seg hver gang du trykker på lukkerknappen. Den lille vibrasjonen som følge av speilets handling kan føre til svak utryddelse av bildet når du bruker en veldig langsom lukkerhastighet, skyter med en lang teleobjektiv, ...

    Opptaksmuligheter på Nikon D5300 - dummies

    Opptaksmuligheter på Nikon D5300 - dummies

    Du kan styre noen få aspekter av din filmoppgave på din Nikon D5300. Du kan manipulere videoen din for å skape en rekke effekter. Følgende liste går gjennom disse alternativene: Eksponeringsmodus: Du kan ta opp filmer i hvilken som helst eksponeringsmodus (Auto, Scenemodus, Effektmodus, P, M, og så videre). Som med fortsatt ...

    Hvordan man manipulerer eksponering og kontroll på Nikon D5600-dummies

    Hvordan man manipulerer eksponering og kontroll på Nikon D5600-dummies

    Følgende retusjonsverktøy på din Nikon D5600 kamerajustering eksponering og farge: D-Lighting, Quick Retouch, Filter Effects og Monochrome. Selv om disse verktøyene ikke får deg til å velge ett kamera over en annen, hvis du allerede har en Nikon D5600, er de tilgjengelige, så du kan også lære å bruke dem! D-Lighting: Active D-Lighting ...

    Redaktørens valg

    DOs og DON'Ts of Fantasy Basketball Draft Picks - dummies

    DOs og DON'Ts of Fantasy Basketball Draft Picks - dummies

    Hvis du vurderer bli med i en fantasy basketball liga, må du ta hensyn til følgende DOs og DON'Ts før du vurderer spillerne du vil utarbeide på laget ditt. Kreditt: © iStockphoto. com / IS_ImageSource Fantasy basketball draft pick DOS I de fleste fantasy basketball ligaer bestemmer kommisjonen (personen som setter opp ligaen) bestillingen i ...

    Linjene og dimensjonene til en basketballbane - dummies

    Linjene og dimensjonene til en basketballbane - dummies

    En basketballbane har symmetri; Den ene halvdelen av retten er et speilbilde av den andre. Hele basketballbanen (se figur 1) er 94 fot med 50 fot. På hver halvplass viser malte linjer fritt korsbanen og sirkelen, samt trepunktsbuen, hvis avstand fra kurven varierer basert ...

    Kjøp av gratis agenter i fantasy fotball - dummies

    Kjøp av gratis agenter i fantasy fotball - dummies

    I løpet av fantasy fotball sesongen, spillere som ikke blir utarbeidet bli gratis agenter - spillere tilgjengelig for enhver ligamatch villig til å slippe en eid spiller. Bruk gratis agentbassenget til å erstatte en skadet spiller eller noen som bare ikke lever opp til dine forventninger. Bruk disse tipsene for å finne en gratis agent for å ...

    Redaktørens valg

    Grunnleggende for din iOS-app - dummies

    Grunnleggende for din iOS-app - dummies

    Heldigvis mesteparten av det du trenger å gjøre så langt som iOS animasjon er opptatt er allerede bygd inn i rammen. Noen visningsegenskaper kan animeres, noe som betyr at du bare må fortelle visningen hvor du skal begynne og hvor du skal avslutte flyttingen, og noen få andre valgfrie parametere, og du er ferdig. ...

    Montering av verktøylinjen for Android App Development - dummies

    Montering av verktøylinjen for Android App Development - dummies

    Når du vet at du er klar til være en Android-utvikler, ta tak i datamaskinen din og få sprekker på å installere verktøyene og rammene som er nødvendige for å bygge ditt første blockbuster-program. Linux-kjernen Android ble opprettet på toppen av åpen kildekode Linux-kjernen. Android-teamet valgte å bruke denne kjernen fordi den ga bevist ...

    Grunnleggende om Cocoa Touch i iOS Apps - dummies

    Grunnleggende om Cocoa Touch i iOS Apps - dummies

    Cocoa Touch-laget inneholder det meste av objektet -orientert utvikler-vendt rammer for å bygge iOS applikasjoner. Det er ditt eneste utgangspunkt for app-utvikling. Apple-guiderne oppfordrer deg til å undersøke teknologiene i dette laget for å se om de oppfyller dine behov, før du ser på de andre lagene. Med andre ord, Apple har til hensikt å ...