Video: How data mining works 2025
Datautvinning innebærer å utforske og analysere store mengder data for å finne mønstre for store data. Teknikkene kom ut av områdene statistikk og kunstig intelligens (AI), med litt databasehåndtering kastet inn i blandingen.
Målet med data mining er generelt enten klassifisering eller prediksjon. I klassifisering er ideen å sortere data i grupper. For eksempel kan en markedsfører være interessert i egenskapene til de som reagerte mot hvem som ikke reagerte på en kampanje.
Dette er to klasser. I prediksjon er ideen å forutsi verdien av en kontinuerlig variabel. For eksempel kan en markedsfører være interessert i å forutsi de som vil svare på en kampanje.
Typiske algoritmer som brukes i data mining, inkluderer følgende:
-
Klassifiseringstrær: En populær datautvinningsteknikk som brukes til å klassifisere en avhengig kategorisk variabel basert på målinger av en eller flere prediktorvariabler. Resultatet er et tre med noder og koblinger mellom noder som kan leses for å danne hvis-deretter regler.
-
Logistisk regresjon: En statistisk teknikk som er en variant av standard regresjon, men utvider konseptet for å håndtere klassifisering. Den produserer en formel som forutsier sannsynligheten for forekomsten som en funksjon av de uavhengige variablene.
-
Neurale nettverk: En programvarealgoritme som er modellert etter den parallelle arkitekturen av dyrehjerner. Nettverket består av input noder, skjulte lag og utdata noder. Hver enhet er tildelt en vekt. Data er gitt til inngangskoden, og ved et system med prøving og feil justerer algoritmen vektene til det oppfyller et bestemt stoppkriterium. Noen har liknet dette til en svart-boks tilnærming.
-
Klyngeteknikker som K-nærmeste naboer: En teknikk som identifiserer grupper av lignende poster. Den nærmeste naboteknikken beregner avstandene mellom posten og poengene i de historiske dataene (trening). Den tildeler deretter denne posten til klassen av nærmeste nabo i et datasett.
Her er et eksempel på klassifiseringstreet. Tenk på situasjonen hvor et telefonselskap ønsker å bestemme hvilke boligkunder som sannsynligvis vil koble fra tjenesten.
Telefonfirmaet har informasjon som består av følgende egenskaper: hvor lenge personen har fått tjenesten, hvor mye han bruker på tjenesten, om tjenesten har vært problematisk, om han har den beste ringeplanen han trenger, hvor han lever, hvor gammel han er, om han har andre tjenester samlet sammen, konkurransedyktig informasjon om andre flyselskapsplaner, og om han fortsatt har tjenesten.
Selvfølgelig kan du finne mange flere attributter enn dette. Den siste attributtet er utfallsvariabelen; Dette er hva programvaren vil bruke til å klassifisere kundene i en av de to gruppene - kanskje kalt stayers og flyrisiko.
Datasettet er delt inn i treningsdata og et testdatasett. Opplæringsdataene består av observasjoner (kalt attributter) og en utfallsvariabel (binær når det gjelder en klassifikasjonsmodell) - i dette tilfellet er stayers eller flyet risikabelt.
Algoritmen kjøres over treningsdataene og kommer opp med et tre som kan leses som en rekke regler. For eksempel, hvis kundene har vært hos selskapet i mer enn ti år og de er over 55 år, vil de trolig forbli like lojale kunder.
Disse reglene kjøres deretter over testdatasettet for å bestemme hvor god denne modellen er på "nye data". "Nøyaktighetsforanstaltninger er gitt for modellen. For eksempel er en populær teknikk forvirringsmatrisen. Denne matrisen er en tabell som gir informasjon om hvor mange tilfeller som var korrekt versus feilkorrigert.
Hvis modellen ser bra ut, kan den distribueres på andre data, slik den er tilgjengelig (det vil si å bruke den til å forutsi nye tilfeller av flyrisiko). Basert på modellen, kan selskapet for eksempel bestemme å sende ut spesialtilbud til de kundene som det tror er flyrisiko.
