Velge en algoritme for forutsigende analyser - dummies

Video: The Internet of Things by James Whittaker of Microsoft 2025

Ulike statistiske data, data mining og maskinlæringsalgoritmer er tilgjengelige for bruk i din prediktive analysemodell. Du har bedre posisjon til å velge en algoritme etter at du har definert målene for modellen din og valgt dataene du vil jobbe med. Noen av disse algoritmene ble utviklet for å løse spesifikke forretningsproblemer, forbedre eksisterende algoritmer eller gi nye muligheter - noe som kan gjøre noen av dem mer hensiktsmessige for dine formål enn andre. Du kan velge mellom en rekke algoritmer for å ta opp forretningsmessige forhold som følgende:

For kundesegmentering og / eller fellesskapsdeteksjon på sosialområdet, vil du for eksempel trenge klyngalgoritmer.
For kundeoppbevaring eller for å utvikle et anbefalingssystem, vil du bruke klassifikasjonsalgoritmer.
For kreditt score eller forutsi neste utfall av tidsdrevne hendelser, vil du bruke en regresjonsalgoritme.

Som tid og ressurser tillater, bør du kjøre så mange algoritmer av riktig type som mulig. Sammenligning av forskjellige løp med forskjellige algoritmer kan gi overraskende funn om dataene eller forretningsinformasjonen som er innebygd i dataene. Å gjøre det gir deg mer detaljert innsikt i forretningsproblemet, og hjelper deg med å identifisere hvilke variabler i dataene dine som har prediktiv kraft.

Noen prediktive analyseprosjekter lykkes best ved å bygge en ensemble modell, en gruppe modeller som opererer på de samme dataene. En ensemble-modell bruker en forhåndsdefinert mekanisme for å samle utfall fra alle dens komponentmodeller og gi et sluttresultat for brukeren.

Modeller kan ta ulike former - en spørring, en samling scenarier, et beslutnings tre eller en avansert matematisk analyse. I tillegg fungerer enkelte modeller best for bestemte data og analyser. Du kan (for eksempel) bruke klassifikasjonsalgoritmer som bruker avgjørelsesregler for å bestemme utfallet av et gitt scenario eller transaksjon, og adressere spørsmål som disse:

Er denne kunden sannsynlig å svare på vår markedsføringskampanje?
Er denne overføringen av penger sannsynligvis en del av en hvitvaskingsordning?
Er dette lånet søkeren sannsynlig å standard på lånet?

Du kan bruke uovervåtte klyngalgoritmer for å finne ut hvilke relasjoner som finnes i datasettet. Du kan bruke disse algoritmene til å finne forskjellige grupperinger blant kundene dine, avgjøre hvilke tjenester som kan grupperes sammen, eller for eksempel bestemme hvilke produkter som kan bli oppløste.

Regresjonsalgoritmer kan brukes til å prognose kontinuerlige data, for eksempel å forutse trenden for en børsbevegelse gitt sine tidligere priser.

Beslutningstrær, støttevektorer, nevrale nettverk, logistikk og lineære regresjoner er noen av de vanligste algoritmer. Selv om deres matematiske implementeringer er forskjellige, genererer disse prediktive modellene sammenlignbare resultater. Beslutningstrærene er mer populære, fordi de er enkle å forstå; Du kan følge banen til en bestemt beslutning.

Klassifikasjonsalgoritmer er gode for typen analyse når målet er kjent (for eksempel å identifisere spam-e-post). På den annen side, når målvariabelen er ukjent, er klyngalgoritmer din beste innsats. De lar deg klynge eller gruppere dataene dine i meningsfylte grupper basert på likhetene mellom gruppemedlemmene.

Disse algoritmene er svært populære. Det er mange verktøy, både kommersielle og open source, som implementerer dem. Med dataakkumulering som blomstrer og akselererer (det vil si store data), og kostnadseffektiv maskinvare og plattformer (for eksempel cloud computing og Hadoop), opplever prediktive analyseverktøy en boom.

Data og forretningsmessige mål er ikke de eneste faktorene du bør vurdere når du velger en algoritme. Ekspertisen til datavitenskapene dine er av stor verdi på dette punktet; Å plukke en algoritme som vil få jobben, er ofte en vanskelig kombinasjon av vitenskap og kunst. Kunstdelen kommer fra erfaring og ferdigheter i bedriftsdomenet, som også spiller en viktig rolle i å identifisere en modell som kan betjene forretningsmålene nøyaktig.