Video: Data Visualization and D3 by David Chouinard 2024
På et brass-tacks nivå består prediktiv analytisk dataklassifisering av to faser: læringsfasen og prediksjonsfasen. Læringsfasen innebærer trening av klassifikasjonsmodellen ved å kjøre et utpekt sett av tidligere data gjennom klassifikatoren. Målet er å lære din modell å trekke ut og oppdage skjulte relasjoner og regler - klassifikasjonsregler fra historiske (treningsdata). Modellen gjør det ved å benytte en klassifikasjonsalgoritme.
Forelesningsfasen som følger læringsfasen består av at modellen forutsier nye klassetiketter eller numeriske verdier som klassifiserer data som den ikke har sett før (det vil si testdata).
For å illustrere disse stadiene, anta at du er eieren av en nettbutikk som selger klokker. Du har eid nettbutikken for en stund, og har samlet mye transaksjonsdata og personlige data om kunder som kjøpte klokker fra butikken din. Anta at du har fanget dataene gjennom nettstedet ditt ved å gi webskjemaer, i tillegg til transaksjonsdataene du har samlet gjennom operasjoner.
Du kan også kjøpe data fra en tredjepart som gir deg informasjon om dine kunder utenfor deres interesse for klokker. Det er ikke så vanskelig som det høres ut; Det finnes selskaper som har forretningsmodell til å spore kunder online og samler og selger verdifull informasjon om dem.
De fleste tredjepartsfirmaene samler data fra sosiale medier, og bruker data-mining metoder for å oppdage forholdet mellom enkelte brukere med produkter. I dette tilfellet, som eier av en klesbutikk, vil du være interessert i forholdet mellom kunder og deres interesse for å kjøpe klokker.
Du kan utlede denne typen informasjon ved å analysere, for eksempel en sosial nettverksprofil for en kunde, eller en mikrobloggkommentar av den typen du finner på Twitter.
For å måle individets interesser i klokker, kan du bruke noen av flere tekstanalytikkverktøy som kan oppdage slike korrelasjoner i en persons skriftlige tekst (sosiale nettverkstatuser, tweets, blogginnlegg og lignende) eller onlineaktivitet (som for eksempel sosiale sosiale samhandlinger, bildeopplastinger og søk).
Etter at du har samlet alle dataene om dine tidligere transaksjoner og nåværende interesser - treningsdata som viser modellen din, skal du organisere den i en struktur som gjør det Lett å få tilgang til og bruke (for eksempel en database).
På dette punktet har du nådd den andre fasen av dataklassifisering: prediksjonsfasen, som handler om å teste din modell og nøyaktigheten av klassifikasjonsreglene det har generert. Til dette formål trenger du ytterligere historiske kundedata, referert til som testdata (som er forskjellig fra treningsdataene).
Du matfører disse testdataene inn i modellen din og måler nøyaktigheten av de resulterende spådommene. Du teller de tider som modellen forutslo riktig den fremtidige oppførselen til kundene som er representert i testdataene dine. Du teller også tider som modellen gjorde feil forutsetninger.
På dette punktet har du bare to mulige utfall: Enten er du fornøyd med nøyaktigheten av modellen, eller du er ikke:
-
Hvis du er fornøyd, kan du begynne å få modellen klar til å lage spådommer som en del av et produksjonssystem.
-
Hvis du ikke er fornøyd med prediksjonen, må du omskole din modell med et nytt treningsdatasett.
Hvis de opprinnelige treningsdataene dine ikke var representative nok av kundens basseng - eller inneholdt støyende data som slettet av modellens resultater ved å introdusere falske signaler - så er det mer arbeid å gjøre for å få modellen til å kjøre. Enten utfallet er nyttig i sin vei.