Innholdsfortegnelse:
Video: How GIW Industries uses Dropbox Business | Dropbox Customer Stories | Dropbox 2025
Når du er data mining, noen ganger vil du ha mer data enn du trenger for et gitt prosjekt. Slik samles du til akkurat det du trenger.
Begrensning av feltene
Når du har mange variabler i et datasett, kan det være vanskelig å finne eller se de som interesserer deg. Og hvis datasettene dine er store, og du ikke trenger alle variablene, vil det være unødvendig å holde ekstramaterialene på nytt. Så, du trenger noen ganger å holde noen variabler og slippe andre. Figuren viser et eksempel i KNIME, der det riktige verktøyet kalles Kolonnefilter.
Et eksempel på oppsett for dette verktøyet er vist i følgende figur.
For å begrense feltene, se etter et variabelt utvalgingsverktøy i data mining søknaden; disse er funnet med andre verktøy for datamanipulering. Som med andre data-mining verktøy, varierer navnene fra produkt til produkt. Se etter variasjoner på ordene kolonne, variabel, eller , og valg eller filtrering.
Velge relevante tilfeller
Saker med ufullstendige data kan filtreres ut før du bygger modellen. Fjerning av ufullstendige tilfeller er et vanlig eksempel på datavalg, eller filtrering.
Men hvordan ville du bare velge de relevante sakene for hvert segment som interesserer deg? Du vil bruke et data utvalg verktøy.
Følgende figur viser et datautvalgsverktøy i et annet datautvinningsprogram.
Neste figur viser hvordan du vil sette opp verktøyet for en annen type valg, denne basert på verdien av en variabel.
Det er vanlig å bruke denne typen datautvalg, og noen programmer gir alle slags innebygde funksjoner for å hjelpe deg med å definere nøyaktig de tilfellene du vil ha. Denne har noen eksepsjonelle funksjoner; Den viser sammendragsstatistikk for variabelen og forteller deg nøyaktig hvor mange tilfeller som oppfyller utvalgskriteriene.
De fleste data mining applikasjoner har verktøy for å velge bare de tilfellene du trenger. Se i menyene (eller søk) for velg eller filter.
Sampling
Et populært begrep i disse dager er at flere data er bedre data. Dette er ikke en ny ide. Data-mining applikasjoner har alltid blitt utviklet for å jobbe med store mengder data. Selv navnet "data mining" antyder store mengder. Men ofte med å samarbeide med dataene dine vil du gi informasjon som er like nyttig, gjøre arbeidet enklere og spare tid og ressurser.
Sampling spiller viktige roller i data mining. Hvis dataene er balansert, betyr det at modellen brukte like mange tilfeller i hver av gruppene som ble sammenlignet (i dette eksemplet var gruppene egenskaper som forandret hender og egenskaper som ikke gjorde det), selv om en gruppe hadde mange flere tilfeller enn andre i de opprinnelige dataene.
Senere ble dataene delt, delt i en delmengde som skal brukes til opplæring av en modell og en annen for testing. Ved å bruke bare en prøve av data i en parallellkoordinat, kan det være enklere å se og tolke. (Scatterplots med tusenvis av poeng kan være umulig vanskelig å lese!) Kanskje viktigst av alt, reduserer prøvetaking bare mengden data, slik at det går raskere.
