Hjem Personlig finansiering Data mining for stor data - dummies

Data mining for stor data - dummies

Video: How data mining works 2025

Video: How data mining works 2025
Anonim

Datautvinning innebærer å utforske og analysere store mengder data for å finne mønstre for store data. Teknikkene kom ut av områdene statistikk og kunstig intelligens (AI), med litt databasehåndtering kastet inn i blandingen.

Målet med data mining er generelt enten klassifisering eller prediksjon. I klassifisering er ideen å sortere data i grupper. For eksempel kan en markedsfører være interessert i egenskapene til de som reagerte mot hvem som ikke reagerte på en kampanje.

Dette er to klasser. I prediksjon er ideen å forutsi verdien av en kontinuerlig variabel. For eksempel kan en markedsfører være interessert i å forutsi de som vil svare på en kampanje.

Typiske algoritmer som brukes i data mining, inkluderer følgende:

  • Klassifiseringstrær: En populær datautvinningsteknikk som brukes til å klassifisere en avhengig kategorisk variabel basert på målinger av en eller flere prediktorvariabler. Resultatet er et tre med noder og koblinger mellom noder som kan leses for å danne hvis-deretter regler.

  • Logistisk regresjon: En statistisk teknikk som er en variant av standard regresjon, men utvider konseptet for å håndtere klassifisering. Den produserer en formel som forutsier sannsynligheten for forekomsten som en funksjon av de uavhengige variablene.

  • Neurale nettverk: En programvarealgoritme som er modellert etter den parallelle arkitekturen av dyrehjerner. Nettverket består av input noder, skjulte lag og utdata noder. Hver enhet er tildelt en vekt. Data er gitt til inngangskoden, og ved et system med prøving og feil justerer algoritmen vektene til det oppfyller et bestemt stoppkriterium. Noen har liknet dette til en svart-boks tilnærming.

  • Klyngeteknikker som K-nærmeste naboer: En teknikk som identifiserer grupper av lignende poster. Den nærmeste naboteknikken beregner avstandene mellom posten og poengene i de historiske dataene (trening). Den tildeler deretter denne posten til klassen av nærmeste nabo i et datasett.

Her er et eksempel på klassifiseringstreet. Tenk på situasjonen hvor et telefonselskap ønsker å bestemme hvilke boligkunder som sannsynligvis vil koble fra tjenesten.

Telefonfirmaet har informasjon som består av følgende egenskaper: hvor lenge personen har fått tjenesten, hvor mye han bruker på tjenesten, om tjenesten har vært problematisk, om han har den beste ringeplanen han trenger, hvor han lever, hvor gammel han er, om han har andre tjenester samlet sammen, konkurransedyktig informasjon om andre flyselskapsplaner, og om han fortsatt har tjenesten.

Selvfølgelig kan du finne mange flere attributter enn dette. Den siste attributtet er utfallsvariabelen; Dette er hva programvaren vil bruke til å klassifisere kundene i en av de to gruppene - kanskje kalt stayers og flyrisiko.

Datasettet er delt inn i treningsdata og et testdatasett. Opplæringsdataene består av observasjoner (kalt attributter) og en utfallsvariabel (binær når det gjelder en klassifikasjonsmodell) - i dette tilfellet er stayers eller flyet risikabelt.

Algoritmen kjøres over treningsdataene og kommer opp med et tre som kan leses som en rekke regler. For eksempel, hvis kundene har vært hos selskapet i mer enn ti år og de er over 55 år, vil de trolig forbli like lojale kunder.

Disse reglene kjøres deretter over testdatasettet for å bestemme hvor god denne modellen er på "nye data". "Nøyaktighetsforanstaltninger er gitt for modellen. For eksempel er en populær teknikk forvirringsmatrisen. Denne matrisen er en tabell som gir informasjon om hvor mange tilfeller som var korrekt versus feilkorrigert.

Hvis modellen ser bra ut, kan den distribueres på andre data, slik den er tilgjengelig (det vil si å bruke den til å forutsi nye tilfeller av flyrisiko). Basert på modellen, kan selskapet for eksempel bestemme å sende ut spesialtilbud til de kundene som det tror er flyrisiko.

Data mining for stor data - dummies

Redaktørens valg

Hvordan du samler ressurser i Minecraft - dummies

Hvordan du samler ressurser i Minecraft - dummies

Du kan samle ressurser på flere måter for Minecraft-strukturen - noen er mer effektiv enn andre. Her finner du noen forskjellige måter å samle materialer på for din struktur. Du har et par forskjellige alternativer når det gjelder gruvedrift. Hver har sine fordeler og ulemper, så det er opp til ...

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Hvordan bygge Minecraft-kretser og -maskiner med Minecart-spor - dummier

Minecart og skinner er Minecraft-funksjoner ofte brukt til å transportere spillere. Men de kan også utføre mange mekaniske egenskaper bedre enn de vanlige redstone-elementene. Minecarts er enheter som kan rulle raskt langs minecartskinner. De kan svinge, gå opp og ned skråninger, og til og med spore (selv om de lider mye ...

Hvordan bygge din første Minecraft Garden - dummies

Hvordan bygge din første Minecraft Garden - dummies

Se hvordan du oppretter en vakker hage i Minecraft ved å planlegge riktig layout, få en rekke unike planter, og organisere plass.

Redaktørens valg

Markedet ditt mobilnettsted til media - dummies

Markedet ditt mobilnettsted til media - dummies

IPhone og iPad er varme emner i media i disse dager. Når du er ferdig med å designe nettstedet ditt for disse nye medieenhetene, ikke glem å markedsføre dem til tradisjonelle medier. Tiltrekke medieoppmerksomhet til mobilwebområdet ditt er ikke i motsetning til å tiltrekke det til noen annen virksomhet. Trikset er å fortelle et godt ...

Gjør skannede dokumenter søkbare og redigerbare - dummies

Gjør skannede dokumenter søkbare og redigerbare - dummies

Når du skanner et dokument direkte til en PDF-fil, Acrobat fanger all tekst og grafikk på hver side som om de alle var bare ett stort grafisk bilde. Dette er bra så langt det går, bortsett fra at det ikke går veldig langt fordi du ikke kan redigere eller søke i PDF-dokumentet ...

Markedet med SMS-meldinger - dummies

Markedet med SMS-meldinger - dummies

Lengden på SMS- begrenset til 160 tegn, så reklamemeldingen din må være kort og søt. Disse meldingene kan inneholde lenker til nettsteder eller klikk for å ringe meldinger: Du klikker på SMS, slik at telefonen ringer. SMS-kampanjer er mye enklere å håndtere enn ...

Redaktørens valg

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Rediger, endre farge eller fjern Photoshop Shape Layers - dummies

Bruk formlag i Photoshop Creative Suite 5 når målet med designet ditt er å integrere vektormodeller og pikseldata sømløst. Når du har opprettet et formlag, kan du redigere formen, endre fargen eller fjerne laget helt. Rediger en form Som Adobe Illustrator, gir Photoshop både et valg av sti ...

Oppdag Photoshops malerverktøy - dummies

Oppdag Photoshops malerverktøy - dummies

Ingenting i Photoshop CC gir deg mer presis kontroll over fargen i bildet ditt enn ved bruk av blyantpenningen verktøy med en 1-piks pensel. Husk at bildet ditt består av mange småfargede firkanter (piksler), og at fargen på de enkelte firkantene er det som gir utseendet til et tre eller et ...

Forbedre portretter i Photoshop CC - dummier

Forbedre portretter i Photoshop CC - dummier

Forbedre detaljer som å avklare motivets briller i Photoshop CC kan hjelpe bildene dine og portretter ser det mye bedre ut. Whitening tennene er et annet godt triks for å lyse opp bildene dine. Deklarende briller i Photoshop Eyeglasses kan være fotografens mareritt! Refleksjonene fra glass er vanligvis spekulative høydepunkter - det vil si områder av ren ...