Innholdsfortegnelse:
- Oppgave: Samle data
- Den leverbare for denne oppgaven er databeskrivelsesrapporten. I den beskriver du kilden og formatene til dataene, antall tilfeller, tall og beskrivelser av feltene, og annen generell informasjon som kan være viktig. Du foretar også en kort evaluering av dataens egnethet for data mining målene. For eksempel, verifiser at dataene inneholder feltene du forventer og må være der og tilstrekkelig tilfeller for analyse.
- Bli kjent med dataene.
- De dataene du trenger eksisterer ikke. (Har det aldri eksistert, eller ble det kassert? Kan disse dataene hentes og lagres for fremtidig bruk?)
Video: The Live Wire - Knowledge Discovery in Databases 2025
I den andre fasen av prosessmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM), får du data og verifiserer at det passer for dine behov. Du kan identifisere problemer som fører til at du kommer tilbake til forretningsforståelse og reviderer planen din. Du kan også oppdage feil i din forretningsforståelse, en annen grunn til å revurdere mål og planer.
Dataforståelsesfasen inneholder fire oppgaver . Disse er
-
Gathering data
-
Beskrive data
-
Utforsk data
-
Verifisere datakvalitet
Oppgave: Samle data
Du har nettopp satt mål og definert en data mining plan. Hvert trinn i planen er avhengig av å ha de riktige dataene. Bedre sørg for at du virkelig har dataene!
Bare en levererbar for denne oppgaven: Den første datainnsamlingsrapporten. I rapporten må du verifisere at du har kjøpt dataene eller i det minste fått tilgang til dataene, testet dataadgangsprosessen, og bekreftet at dataene eksisterer. Du må også laste inn data i verktøy som du skal bruke for data mining for å verifisere at verktøyene er kompatible med dataene.
Du kan gjøre mye arbeid for å samle dataene du trenger før du kan skrive denne rapporten. Først vil du lage planen din som følger:
-
Oversikt over datakrav: Lag en liste over hvilke typer data som er nødvendige for å håndtere data mining målene. Utvid listen med detaljer som ønsket tidsintervall og dataformater.
-
Verifiser datatilgjengelighet: Bekreft at de nødvendige dataene eksisterer, og at du kan bruke den. Hvis noen av de ønskede dataene ikke er tilgjengelige, bestem deg hvordan du skal løse dette problemet. Vurder alternativer som
-
Sette inn nye data
-
Definere utvalgskriterier:
-
Identifisere spesifikke datakilder (databaser, filer, dokumenter, og så videre.) du vil bruke. Innenfor disse kildene oppgir du tabellene, feltene og saksintervallene som er relevante for dette prosjektet.
Når du har gått gjennom disse trinnene, må du faktisk skaffe dataene. På dette stadiet importerer du dataene i data mining plattformen du skal bruke til prosjektet for å bekrefte at det er mulig å gjøre det, og at du forstår prosessen. I løpet av dette forsøket kan du oppdage begrensninger av programvare (eller maskinvare) du ikke hadde forventet, for eksempel Grenser for antall tilfeller eller felt, eller hvor mye minne du kan bruke
Manglende evne til å lese dataformater av kildene dine
-
Vanskelighetsgrad ved mangler i dataene (for eksempel kan du støte på produkter som ikke vil importere eller analysere ufullstendige datasett)
-
Oppsummere samleprosessen i en rapport.Rapporten skal beskrive dine krav og forklare nøyaktig nøyaktig hvilke data du har samlet og fra hvilke kilder. Her bekrefter du at du faktisk har innhentet dataene og at den er kompatibel med data mining plattformen. Hvis du har problemer, vil du forklare hva de var og hvordan du har adressert dem (ved hjelp av alternative kilder, revidere planer, endre format).
-
Den leverbare for denne oppgaven er bare en enkel rapport, men det arbeidet du må gjøre før du kan skrive rapporten vil ikke være enkel! Datatilgang kan være en av de mest utfordrende og frustrerende delene av data-miningprosessen, med både tekniske og forretningsmessige utfordringer.
Oppgave: Beskrive data
Nå som du har data, utarbeide en generell beskrivelse av hva du har.
Den leverbare for denne oppgaven er databeskrivelsesrapporten. I den beskriver du kilden og formatene til dataene, antall tilfeller, tall og beskrivelser av feltene, og annen generell informasjon som kan være viktig. Du foretar også en kort evaluering av dataens egnethet for data mining målene. For eksempel, verifiser at dataene inneholder feltene du forventer og må være der og tilstrekkelig tilfeller for analyse.
Oppgave: Utforske data
I denne oppgaven undersøker du dataene nærmere. For hver variabel ser du på rekkevidden av verdier og deres distribusjoner. Du vil bruke enkel datamanipulering og grunnleggende statistiske teknikker for videre kontroll i dataene. Data leting støtter flere formål:
Bli kjent med dataene.
Spot tegn på problemer med datakvaliteten.
-
Still scenen for datapreparasjonstrinn.
-
Den leverbare for denne oppgaven er datautforskingsrapporten. Det er stedet å dokumentere noen hypoteser eller innledende funn som du har utviklet under dataundersøkelsen. Denne rapporten skal inneholde en mer detaljert beskrivelse av dataene enn databeskrivelsesrapporten, inkludert distribusjoner, oppsummeringer og eventuelle tegn på datakvalitetsproblemer.
-
Oppgave: Verifisering av datakvalitet
Du har dataene og du har undersøkt det, og nå må du avgjøre om det er bra nok til å støtte dine mål. Du vil ofte ha noe kvalitetsproblem å adressere, men likevel kunne fortsette, men til tider er datakvaliteten så dårlig at den ikke kan støtte planen din, og du må lete etter alternativer. Noen av de verste dataproblemer vil inneholde
De dataene du trenger eksisterer ikke. (Har det aldri eksistert, eller ble det kassert? Kan disse dataene hentes og lagres for fremtidig bruk?)
Det eksisterer, men du kan ikke ha det. (Kan denne begrensningen bli overvunnet?)
-
Du finner alvorlige datakvalitetsproblemer (mange manglende eller feilverdier som ikke kan korrigeres).
-
Den leverbare for denne oppgaven er datakvalitetsrapporten. Dette oppsummerer dataene du har, mindre og store kvalitetsproblemer som du har funnet, og mulige rettsmidler for kvalitetsproblemer eller alternativer (for eksempel bruk av en alternativ dataressurs).Hvis du står overfor alvorlige datakvalitetsproblemer og ikke kan identifisere en tilstrekkelig løsning, må du kanskje anbefale å revurdere mål eller planer.
