Hjem Personlig finansiering Grunnleggende om dataklynger i Prediktiv analyse - dummier

Grunnleggende om dataklynger i Prediktiv analyse - dummier

Video: Det grunnleggende om intervaller i musikk 2025

Video: Det grunnleggende om intervaller i musikk 2025
Anonim

A datasett < (eller datainnsamling) er et sett med elementer i prediktiv analyse. Et sett med dokumenter er for eksempel et datasett der dataelementene er dokumenter. Et sett med brukernavn for sosiale nettverk (navn, alder, venneliste, bilder og så videre) er et datasett hvor dataelementene er profiler av brukere av sosiale nettverk. Dataklyptering

er oppgaven til å dele et datasett i delsett av lignende gjenstander. Elementer kan også refereres til som forekomster, observasjon, enheter eller dataobjekter. I de fleste tilfeller er et datasett representert i tabellformat - en datamatriks . En datamatrise er en tabell med tall, dokumenter eller uttrykk, representert i rader og kolonner som følger:

Hver rad tilsvarer et gitt element i datasettet.
  • Rader blir noen ganger referert til som

    elementer, objekter, forekomster eller observasjoner. Hver kolonne representerer en bestemt egenskap for et element.

  • Kolonner refereres til som

    funksjoner eller attributter. Bruk av dataklynging til et datasett genererer grupper av lignende dataposter. Disse gruppene heter

klynger - samlinger av lignende dataposter.

Lignende

elementer har et sterkt, målbart forhold blant dem - ferske grønnsaker, for eksempel, ligner på hverandre enn de er til frossen mat - og klyngeteknikker bruker det forholdet til gruppen Gjenstandene. Styrken av et forhold mellom to eller flere elementer kan kvantifiseres som et

likhetsmål: En matematisk funksjon beregner korrelasjonen mellom to dataelementer. Resultatene av denne beregningen, kalt likhetsverdier, , sammenligner i det vesentlige et bestemt dataelement til alle andre elementer i datasettet. De andre elementene vil være enten mer like eller mindre like i forhold til det bestemte elementet.

Beregnede likheter spiller en viktig rolle i å tildele elementer til grupper (

klynger ). Hver gruppe har et element som best representerer det; Dette elementet er referert til som en klyngerepresentant . Vurder et datasett som består av flere typer frukt i en kurv. Kurven har frukt av forskjellige typer som epler, bananer, sitroner og pærer. I dette tilfellet er frukt dataelementene. Dataklyngingsprosessen trekker ut grupper av lignende frukter ut av dette datasettet (kurv med forskjellige frukter).

Det første trinnet i en dataklyngingsprosess er å oversette dette datasettet til en datamatrise: En måte å modellere datasettet på er at radene representerer elementene i datasettet (frukt); og kolonnene representerer egenskaper eller funksjoner som beskriver elementene.

For eksempel kan en fruktfunksjon være frukttype (for eksempel banan eller eple), vekt, farge eller pris. I dette eksempeldatasettet har elementene tre funksjoner: frukttype, farge og vekt.

I de fleste tilfeller gjør det mulig å

Hente grupper (klynger) av lignende elementer ved å bruke en dataklyngeteknikk til fruktdatasettet som beskrevet ovenfor.

  • Du kan fortelle at frukten din er av N antall grupper. Etter at hvis du velger en tilfeldig frukt, vil du kunne gjøre en erklæring om det aktuelle elementet som en del av en av N-gruppene. Hent klusterrepresentanter for hver gruppe.

  • I dette eksemplet vil en klyngerepresentant plukke en frukttype fra kurven og sette den til side. Egenskapene til denne frukten er slik at den frukten best representerer klyngen den tilhører. Når du er ferdig med clustering, er datasettet ditt organisert og delt inn i naturlige grupperinger.

Dataklynging avslører strukturen i dataene ved å trekke ut naturlige grupperinger fra et datasett. Derfor oppdager klynger et viktig skritt mot å formulere ideer og hypoteser om strukturen av dataene dine og utlede innsikt for å bedre forstå det.

Dataklyptering kan også være en måte å modellere data på: Det representerer en større datagruppe av klynger eller klyngerrepresentanter.

I tillegg kan analysen din bare søke å partisjonere dataene i grupper med lignende elementer - som når

markedssegmentering partisjonerer målmarkedsdata i grupper som Forbrukerne som deler de samme interessene (slik som middelhavskoking)

  • Forbrukere som har vanlige behov (for eksempel de med spesifikke matallergier)

  • Identifisering av klynger av liknende kunder kan hjelpe deg med å utvikle en markedsføringsstrategi som tilfredsstiller behovene til bestemte klynger.

Videre kan dataklynging også hjelpe deg med å identifisere, lære eller forutsi naturen til nye dataposter - spesielt hvordan nye data kan knyttes til å lage spådommer. For eksempel i

mønstergjenkjenning kan analysemønstre i dataene (for eksempel kjøpsmønstre i bestemte regioner eller aldersgrupper) hjelpe deg med å utvikle prediktiv analyse - i dette tilfellet forutsi arten av fremtidige dataposter som kan passe bra med etablerte mønstre. Eksempel på fruktkurv bruker dataklynging for å skille mellom ulike dataposter. Anta at bedriften din samler tilpassede fruktkurver, og en ny, ukjent frukt blir introdusert til markedet. Du vil lære eller forutse hvilken klynge det nye elementet vil tilhøre hvis du legger det til fruktkurven.

Fordi du allerede har brukt dataklynging til fruktdatasettet, har du fire klynger - noe som gjør det lettere å forutse hvilken klynge (spesifikk type frukt) som passer for det nye elementet. Alt du trenger å gjøre er å sammenligne den ukjente frukten med de andre fire klyngernes representanter og identifisere hvilken klynge som passer best.

Selv om denne prosessen kan virke åpenbar for en person som arbeider med et lite datasett, er det ikke så tydelig i større skala - når du må klyse millioner av gjenstander uten å undersøke hver enkelt.Kompleksiteten blir eksponentiell når datasettet er stort, mangfoldig og relativt usammenhengende. Derfor finnes det klyngalgoritmer: Datamaskiner gjør den typen arbeid best.

Grunnleggende om dataklynger i Prediktiv analyse - dummier

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Data Visualisering Storyboard: Dokumentasjon Key Performance Indicators (KPIs) - dummies

Forstå nøkkelmålinger som publikum må vise, overvåke eller spore er det siste skrittet i utviklingen av historien din. Enkelt sagt er en nøkkelindikator (KPI) en kjerne-måling som knytter seg direkte til selskapets mål. Gjennomføre scoping-workshops Den beste måten å jobbe med publikum på for å dokumentere KPI-er er ...

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Data Visualisering Storyboard: Dokumentasjonsmål - dummies

Å Få en klar forståelse av målgruppens mål og eksisterende smertepunkter vil hjelpe du bestemmer hva du skal inkludere og - enda viktigere - hva som ikke skal inkluderes i storyboardet. Den enkleste måten å gjøre dette på, kan være å holde en liten planleggingsøkt som inkluderer executive sponsor (hvis det er en) og ...

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Data Visualisering Storyboard: Identifisere målgruppen din - dummies

Det første trinnet i å utvikle et klart storyboard for deg datavisualisering identifiserer publikum. Hvem du bygger data visualisering for å bestemme hvilken type storyboard du utvikler og hvilket nivå av data du viser. Den enkleste måten å klassifisere målgruppen din er å se på to enkle komponenter: forretningsområde ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...