Hjem Personlig finansiering Fase 3 i CRISP-DM Prosessmodell: Data Forberedelse - Dummies

Fase 3 i CRISP-DM Prosessmodell: Data Forberedelse - Dummies

Innholdsfortegnelse:

Video: PRÉ-PROCESSAMENTO DE DADOS. CRISP-DM #FASE 3 2024

Video: PRÉ-PROCESSAMENTO DE DADOS. CRISP-DM #FASE 3 2024
Anonim

Data miners bruker mesteparten av tiden sin i tredje fase av prosessmodellen Cross-Industry Standard Process for Data Mining (CRISP-DM): databehandling. De fleste dataene som ble brukt til data mining ble opprinnelig samlet og bevart for andre formål og trenger litt forfining før den er klar til bruk for modellering.

Dataforberedelsesfasen inneholder fem oppgaver . Disse er

  • Velger data

  • Rengjøringsdata

  • Konstruere data

  • Integrere data

  • Formateringsdata

Steg-for-trinns guide for CRISP-DM gir ikke uttrykkelig angivelse av datasett som leveranser for hver av de data forberedelse oppgaver, men de datasettene hadde darn bedre eksisterer og være riktig arkivert og dokumentert. Datasett vil ikke korrespondere en-til-en med oppgaver, men informasjon om data som brukes skal inkluderes i hver leverbar rapport.

Oppgave: Velge data

Nå bestemmer du hvilken del av dataene du har, faktisk skal brukes til datautvinning.

Den leverbare for denne oppgaven er begrunnelsen for inkludering og ekskludering. I det forklarer du hvilke data vil, og vil ikke, bli brukt til videre data-gruvearbeid.

Du vil forklare årsakene til å inkludere eller ekskludere hver del av dataene du har, basert på relevans for dine mål, datakvalitet og tekniske problemer - for eksempel begrensninger for antall felt eller rader som verktøyene dine kan håndtere eller egnet dataformatene for dine behov.

Oppgave: Rengjøringsdata

Dataene du har valgt å bruke, er usannsynlig å være helt rene (feilfri). Du foretar endringer, kanskje sporing av kilder for å gjøre bestemte data korrigeringer, unntatt enkelte tilfeller eller individuelle celler (dataelementer), eller erstatte noen dataelementer med standardverdier eller utskiftninger valgt av en mer sofistikert modelleringsteknikk. Du kan velge å bare bruke delsett av dataene for alt eller noen av data-gruvearbeidet ditt.

Den levererbare for denne oppgaven er datarengjøringsrapporten, som dokumenterer, i uhyggelig detalj, alle beslutninger og handlinger som brukes til å rense dataene dine. Denne rapporten skal dekke og referere til hvert datakvalitetsproblem som ble identifisert i verifiser datakvalitetsoppgaven i dataforståelsesfasen av prosessen. Du rapporterer bør også adressere potensiell innvirkning på resultatene av de valgene du har gjort under datasensing.

Oppgave: Konstruere data

Du må kanskje hente ut noen nye felt (for eksempel bruke leveringsdato og dato da en kunde bestilte å beregne hvor lenge kunden ventet å motta en ordre), samlet data, eller på annen måte opprette en ny dataform.

Leveranser for denne oppgaven inkluderer to rapporter:

  • Avledede attributter: En rapport som beskriver hvilke nye felt (kolonner) du har konstruert, hvordan du gjorde det og hvorfor.

  • Genererte poster: En rapport som beskriver hvilke nye tilfeller (rader) du har konstruert, hvordan du gjorde det, og hvorfor.

Selv om fusjonsdata og formatdataoppgaver er oppført sist i denne fasen av prosessen, kommer de ikke alltid sist, og de kan ikke komme opp bare en gang. Det kan hende du må gjøre noe fusjonering eller omformatering tidlig i dataforberedelsesfasen.

Oppgave: Integrering av data

Dine data kan nå finnes i flere forskjellige datasett. Du må slå sammen noen eller alle de forskjellige datasettene for å gjøre deg klar for modelleringsfasen.

Den leverbare for denne oppgaven er de fusjonerte dataene. (Og det ville ikke skade å dokumentere hvordan sammenslåingen ble utført.)

Oppgave: Formatering av data

Data kommer ofte til deg i andre formater enn de som passer best for modellering. (Formatendringer blir vanligvis drevet av utformingen av verktøyene dine.) Så konverter disse formatene nå.

Den leverbare for denne oppgaven er din formaterte data. (Og en liten rapport som beskriver endringene du har gjort, ville være en smart ting å inkludere.)

Du bør avslutte dataforberedelsesfasen i data-miningprosessen med et datasett som er klar for modellering og en grundig rapport som beskriver datasettet.

Fase 3 i CRISP-DM Prosessmodell: Data Forberedelse - Dummies

Redaktørens valg

Speil Lockup (MUP) på Nikon D7100-dummies

Speil Lockup (MUP) på Nikon D7100-dummies

En komponent i det optiske systemet til din Nikon D7100 kamera er et speil som beveger seg hver gang du trykker på lukkerknappen. Den lille vibrasjonen som følge av speilets handling kan føre til svak utryddelse av bildet når du bruker en veldig langsom lukkerhastighet, skyter med en lang teleobjektiv, ...

Opptaksmuligheter på Nikon D5300 - dummies

Opptaksmuligheter på Nikon D5300 - dummies

Du kan styre noen få aspekter av din filmoppgave på din Nikon D5300. Du kan manipulere videoen din for å skape en rekke effekter. Følgende liste går gjennom disse alternativene: Eksponeringsmodus: Du kan ta opp filmer i hvilken som helst eksponeringsmodus (Auto, Scenemodus, Effektmodus, P, M, og så videre). Som med fortsatt ...

Hvordan man manipulerer eksponering og kontroll på Nikon D5600-dummies

Hvordan man manipulerer eksponering og kontroll på Nikon D5600-dummies

Følgende retusjonsverktøy på din Nikon D5600 kamerajustering eksponering og farge: D-Lighting, Quick Retouch, Filter Effects og Monochrome. Selv om disse verktøyene ikke får deg til å velge ett kamera over en annen, hvis du allerede har en Nikon D5600, er de tilgjengelige, så du kan også lære å bruke dem! D-Lighting: Active D-Lighting ...

Redaktørens valg

DOs og DON'Ts of Fantasy Basketball Draft Picks - dummies

DOs og DON'Ts of Fantasy Basketball Draft Picks - dummies

Hvis du vurderer bli med i en fantasy basketball liga, må du ta hensyn til følgende DOs og DON'Ts før du vurderer spillerne du vil utarbeide på laget ditt. Kreditt: © iStockphoto. com / IS_ImageSource Fantasy basketball draft pick DOS I de fleste fantasy basketball ligaer bestemmer kommisjonen (personen som setter opp ligaen) bestillingen i ...

Linjene og dimensjonene til en basketballbane - dummies

Linjene og dimensjonene til en basketballbane - dummies

En basketballbane har symmetri; Den ene halvdelen av retten er et speilbilde av den andre. Hele basketballbanen (se figur 1) er 94 fot med 50 fot. På hver halvplass viser malte linjer fritt korsbanen og sirkelen, samt trepunktsbuen, hvis avstand fra kurven varierer basert ...

Kjøp av gratis agenter i fantasy fotball - dummies

Kjøp av gratis agenter i fantasy fotball - dummies

I løpet av fantasy fotball sesongen, spillere som ikke blir utarbeidet bli gratis agenter - spillere tilgjengelig for enhver ligamatch villig til å slippe en eid spiller. Bruk gratis agentbassenget til å erstatte en skadet spiller eller noen som bare ikke lever opp til dine forventninger. Bruk disse tipsene for å finne en gratis agent for å ...

Redaktørens valg

Grunnleggende for din iOS-app - dummies

Grunnleggende for din iOS-app - dummies

Heldigvis mesteparten av det du trenger å gjøre så langt som iOS animasjon er opptatt er allerede bygd inn i rammen. Noen visningsegenskaper kan animeres, noe som betyr at du bare må fortelle visningen hvor du skal begynne og hvor du skal avslutte flyttingen, og noen få andre valgfrie parametere, og du er ferdig. ...

Montering av verktøylinjen for Android App Development - dummies

Montering av verktøylinjen for Android App Development - dummies

Når du vet at du er klar til være en Android-utvikler, ta tak i datamaskinen din og få sprekker på å installere verktøyene og rammene som er nødvendige for å bygge ditt første blockbuster-program. Linux-kjernen Android ble opprettet på toppen av åpen kildekode Linux-kjernen. Android-teamet valgte å bruke denne kjernen fordi den ga bevist ...

Grunnleggende om Cocoa Touch i iOS Apps - dummies

Grunnleggende om Cocoa Touch i iOS Apps - dummies

Cocoa Touch-laget inneholder det meste av objektet -orientert utvikler-vendt rammer for å bygge iOS applikasjoner. Det er ditt eneste utgangspunkt for app-utvikling. Apple-guiderne oppfordrer deg til å undersøke teknologiene i dette laget for å se om de oppfyller dine behov, før du ser på de andre lagene. Med andre ord, Apple har til hensikt å ...