Hjem Personlig finansiering Sikt ut dataene du trenger - dummies

Sikt ut dataene du trenger - dummies

Innholdsfortegnelse:

Video: How GIW Industries uses Dropbox Business | Dropbox Customer Stories | Dropbox 2025

Video: How GIW Industries uses Dropbox Business | Dropbox Customer Stories | Dropbox 2025
Anonim

Når du er data mining, noen ganger vil du ha mer data enn du trenger for et gitt prosjekt. Slik samles du til akkurat det du trenger.

Begrensning av feltene

Når du har mange variabler i et datasett, kan det være vanskelig å finne eller se de som interesserer deg. Og hvis datasettene dine er store, og du ikke trenger alle variablene, vil det være unødvendig å holde ekstramaterialene på nytt. Så, du trenger noen ganger å holde noen variabler og slippe andre. Figuren viser et eksempel i KNIME, der det riktige verktøyet kalles Kolonnefilter.

Et eksempel på oppsett for dette verktøyet er vist i følgende figur.

For å begrense feltene, se etter et variabelt utvalgingsverktøy i data mining søknaden; disse er funnet med andre verktøy for datamanipulering. Som med andre data-mining verktøy, varierer navnene fra produkt til produkt. Se etter variasjoner på ordene kolonne, variabel, eller , og valg eller filtrering.

Velge relevante tilfeller

Saker med ufullstendige data kan filtreres ut før du bygger modellen. Fjerning av ufullstendige tilfeller er et vanlig eksempel på datavalg, eller filtrering.

Men hvordan ville du bare velge de relevante sakene for hvert segment som interesserer deg? Du vil bruke et data utvalg verktøy.

Følgende figur viser et datautvalgsverktøy i et annet datautvinningsprogram.

Neste figur viser hvordan du vil sette opp verktøyet for en annen type valg, denne basert på verdien av en variabel.

Det er vanlig å bruke denne typen datautvalg, og noen programmer gir alle slags innebygde funksjoner for å hjelpe deg med å definere nøyaktig de tilfellene du vil ha. Denne har noen eksepsjonelle funksjoner; Den viser sammendragsstatistikk for variabelen og forteller deg nøyaktig hvor mange tilfeller som oppfyller utvalgskriteriene.

De fleste data mining applikasjoner har verktøy for å velge bare de tilfellene du trenger. Se i menyene (eller søk) for velg eller filter.

Sampling

Et populært begrep i disse dager er at flere data er bedre data. Dette er ikke en ny ide. Data-mining applikasjoner har alltid blitt utviklet for å jobbe med store mengder data. Selv navnet "data mining" antyder store mengder. Men ofte med å samarbeide med dataene dine vil du gi informasjon som er like nyttig, gjøre arbeidet enklere og spare tid og ressurser.

Sampling spiller viktige roller i data mining. Hvis dataene er balansert, betyr det at modellen brukte like mange tilfeller i hver av gruppene som ble sammenlignet (i dette eksemplet var gruppene egenskaper som forandret hender og egenskaper som ikke gjorde det), selv om en gruppe hadde mange flere tilfeller enn andre i de opprinnelige dataene.

Senere ble dataene delt, delt i en delmengde som skal brukes til opplæring av en modell og en annen for testing. Ved å bruke bare en prøve av data i en parallellkoordinat, kan det være enklere å se og tolke. (Scatterplots med tusenvis av poeng kan være umulig vanskelig å lese!) Kanskje viktigst av alt, reduserer prøvetaking bare mengden data, slik at det går raskere.

Sikt ut dataene du trenger - dummies

Redaktørens valg

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

Hvordan beskrives et datasett statistisk for GEDs vitenskapstest - dummies

GED Science test vil stille spørsmål relatert til beskrivende statistikk. Du kan ofte oppsummere en samling av data (fra et eksperiment, observasjoner eller undersøkelser, for eksempel) ved å bruke beskrivende statistikk, tall som brukes til å oppsummere og analysere dataene og trekke konklusjoner fra det. Beskrivende statistikk for en samling av data inkluderer følgende: Frekvens: ...

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Hvordan forutsi en utgang basert på data eller bevis på GED-vitenskapstesten

Bruk av bevis for å forutsi utfall er en nødvendig ferdighet for GED Science-testen. De største fordelene med vitenskapelige studier kan ofte tilskrives det faktum at deres konklusjoner gjør det mulig for folk å forutsi utfall. (Du vil sikkert ønske vitenskap kan hjelpe deg med å forutsi utfallet ditt på prøve!) Du er vitne til vitenskap i handling hver dag ...

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

Hvordan man måler en forfatters troverdighet for GEDs samfunnsstudietest - dummies

GED Social Studies test vil stille spørsmål som krever at du bestemmer troverdigheten til en forfatter. Det er ikke alltid lett å vurdere om en forfatter er troverdig basert på informasjonen som er gitt i en skriftlig oversikt og referansen, men du kan hente spor ved å nøye undersøke følgende områder: Forfatterens ...

Redaktørens valg

Hva skjer i QuickBooks 2013 Setup? - dummies

Hva skjer i QuickBooks 2013 Setup? - dummies

Etter at du har installert QuickBooks 2013, kjører du en skjermveiviser for å sette opp QuickBooks for firmaets regnskap. Klart, denne skjermveiviseren kalles QuickBooks Setup. Når du kjører QuickBooks Setup, gir du ganske mye informasjon til QuickBooks. Som en praktisk sak krever oppsettet og oppsettet etter oppsettet at du har ...

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Leverandørmenykommandoer i QuickBooks 2013 - dummies

Når du jobber med betalbar betaling i QuickBooks 2013, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter i QuickBooks 2013 Vendor Center-vinduet viser en liste over leverandører og detaljerte ...

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Kommandoer for leverandørmeny i QuickBooks 2014 - dummies

Når du jobber med betalbar betaling i QuickBooks 2014, har du ofte vil bruke flere av kommandoene på leverandørmenyen. Noen av kommandoene er imidlertid ikke så populære, men du må fortsatt være klar over deres formål. Leverandørssenter Vendor Center-vinduet viser en liste over leverandører og detaljert leverandørinformasjon for ...