Innholdsfortegnelse:
- Oppgave: Velge data
- Oppgave: Rengjøringsdata
- Oppgave: Konstruere data
- Oppgave: Integrering av data
- Oppgave: Formatering av data
Video: PRÉ-PROCESSAMENTO DE DADOS. CRISP-DM #FASE 3 2024
Data miners bruker mesteparten av tiden sin i tredje fase av prosessmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM): databehandling. De fleste dataene som ble brukt til data mining ble opprinnelig samlet og bevart for andre formål og trenger litt forfining før den er klar til bruk for modellering.
Dataforberedelsesfasen inneholder fem oppgaver . Disse er
-
Velger data
-
Rengjøringsdata
-
Konstruere data
-
Integrere data
-
Formateringsdata
Steg-for-trinns guide for CRISP-DM gir ikke uttrykkelig angivelse av datasett som leveranser for hver av de data forberedelse oppgaver, men de datasettene hadde darn bedre eksisterer og være riktig arkivert og dokumentert. Datasett vil ikke korrespondere en-til-en med oppgaver, men informasjon om data som brukes skal inkluderes i hver leverbar rapport.
Oppgave: Velge data
Nå bestemmer du hvilken del av dataene du har, faktisk skal brukes til datautvinning.
Den leverbare for denne oppgaven er begrunnelsen for inkludering og ekskludering. I det forklarer du hvilke data vil, og vil ikke, bli brukt til videre data-gruvearbeid.
Du vil forklare årsakene til å inkludere eller ekskludere hver del av dataene du har, basert på relevans for dine mål, datakvalitet og tekniske problemer - for eksempel begrensninger for antall felt eller rader som verktøyene dine kan håndtere eller egnet dataformatene for dine behov.
Oppgave: Rengjøringsdata
Dataene du har valgt å bruke, er usannsynlig å være helt rene (feilfri). Du foretar endringer, kanskje sporing av kilder for å gjøre bestemte data korrigeringer, unntatt enkelte tilfeller eller individuelle celler (dataelementer), eller erstatte noen dataelementer med standardverdier eller utskiftninger valgt av en mer sofistikert modelleringsteknikk. Du kan velge å bare bruke delsett av dataene for alt eller noen av data-gruvearbeidet ditt.
Den levererbare for denne oppgaven er datarengjøringsrapporten, som dokumenterer, i uhyggelig detalj, alle beslutninger og handlinger som brukes til å rense dataene dine. Denne rapporten skal dekke og referere til hvert datakvalitetsproblem som ble identifisert i verifiser datakvalitetsoppgaven i dataforståelsesfasen av prosessen. Du rapporterer bør også adressere potensiell innvirkning på resultatene av de valgene du har gjort under datasensing.
Oppgave: Konstruere data
Du må kanskje hente ut noen nye felt (for eksempel bruke leveringsdato og dato da en kunde bestilte å beregne hvor lenge kunden ventet å motta en ordre), samlet data, eller på annen måte opprette en ny dataform.
Leveranser for denne oppgaven inkluderer to rapporter:
-
Avledede attributter: En rapport som beskriver hvilke nye felt (kolonner) du har konstruert, hvordan du gjorde det og hvorfor.
-
Genererte poster: En rapport som beskriver hvilke nye tilfeller (rader) du har konstruert, hvordan du gjorde det, og hvorfor.
Selv om fusjonsdata og formatdataoppgaver er oppført sist i denne fasen av prosessen, kommer de ikke alltid sist, og de kan ikke komme opp bare en gang. Det kan hende du må gjøre noe fusjonering eller omformatering tidlig i dataforberedelsesfasen.
Oppgave: Integrering av data
Dine data kan nå finnes i flere forskjellige datasett. Du må slå sammen noen eller alle de forskjellige datasettene for å gjøre deg klar for modelleringsfasen.
Den leverbare for denne oppgaven er de fusjonerte dataene. (Og det ville ikke skade å dokumentere hvordan sammenslåingen ble utført.)
Oppgave: Formatering av data
Data kommer ofte til deg i andre formater enn de som passer best for modellering. (Formatendringer blir vanligvis drevet av utformingen av verktøyene dine.) Så konverter disse formatene nå.
Den leverbare for denne oppgaven er din formaterte data. (Og en liten rapport som beskriver endringene du har gjort, ville være en smart ting å inkludere.)
Du bør avslutte dataforberedelsesfasen i data-miningprosessen med et datasett som er klar for modellering og en grundig rapport som beskriver datasettet.