Grunnleggende om dataklynger i Prediktiv analyse - dummier

A datasett < (eller datainnsamling) er et sett med elementer i prediktiv analyse. Et sett med dokumenter er for eksempel et datasett der dataelementene er dokumenter. Et sett med brukernavn for sosiale nettverk (navn, alder, venneliste, bilder og så videre) er et datasett hvor dataelementene er profiler av brukere av sosiale nettverk. Dataklyptering

er oppgaven til å dele et datasett i delsett av lignende gjenstander. Elementer kan også refereres til som forekomster, observasjon, enheter eller dataobjekter. I de fleste tilfeller er et datasett representert i tabellformat - en datamatriks . En datamatrise er en tabell med tall, dokumenter eller uttrykk, representert i rader og kolonner som følger:

Hver rad tilsvarer et gitt element i datasettet.

Rader blir noen ganger referert til som

elementer, objekter, forekomster eller observasjoner. Hver kolonne representerer en bestemt egenskap for et element.
Kolonner refereres til som

funksjoner eller attributter. Bruk av dataklynging til et datasett genererer grupper av lignende dataposter. Disse gruppene heter

klynger - samlinger av lignende dataposter.

Lignende

elementer har et sterkt, målbart forhold blant dem - ferske grønnsaker, for eksempel, ligner på hverandre enn de er til frossen mat - og klyngeteknikker bruker det forholdet til gruppen Gjenstandene. Styrken av et forhold mellom to eller flere elementer kan kvantifiseres som et

likhetsmål: En matematisk funksjon beregner korrelasjonen mellom to dataelementer. Resultatene av denne beregningen, kalt likhetsverdier, , sammenligner i det vesentlige et bestemt dataelement til alle andre elementer i datasettet. De andre elementene vil være enten mer like eller mindre like i forhold til det bestemte elementet.

Beregnede likheter spiller en viktig rolle i å tildele elementer til grupper (

klynger ). Hver gruppe har et element som best representerer det; Dette elementet er referert til som en klyngerepresentant . Vurder et datasett som består av flere typer frukt i en kurv. Kurven har frukt av forskjellige typer som epler, bananer, sitroner og pærer. I dette tilfellet er frukt dataelementene. Dataklyngingsprosessen trekker ut grupper av lignende frukter ut av dette datasettet (kurv med forskjellige frukter).

Det første trinnet i en dataklyngingsprosess er å oversette dette datasettet til en datamatrise: En måte å modellere datasettet på er at radene representerer elementene i datasettet (frukt); og kolonnene representerer egenskaper eller funksjoner som beskriver elementene.

For eksempel kan en fruktfunksjon være frukttype (for eksempel banan eller eple), vekt, farge eller pris. I dette eksempeldatasettet har elementene tre funksjoner: frukttype, farge og vekt.

I de fleste tilfeller gjør det mulig å

Hente grupper (klynger) av lignende elementer ved å bruke en dataklyngeteknikk til fruktdatasettet som beskrevet ovenfor.

Du kan fortelle at frukten din er av N antall grupper. Etter at hvis du velger en tilfeldig frukt, vil du kunne gjøre en erklæring om det aktuelle elementet som en del av en av N-gruppene. Hent klusterrepresentanter for hver gruppe.
I dette eksemplet vil en klyngerepresentant plukke en frukttype fra kurven og sette den til side. Egenskapene til denne frukten er slik at den frukten best representerer klyngen den tilhører. Når du er ferdig med clustering, er datasettet ditt organisert og delt inn i naturlige grupperinger.

Dataklynging avslører strukturen i dataene ved å trekke ut naturlige grupperinger fra et datasett. Derfor oppdager klynger et viktig skritt mot å formulere ideer og hypoteser om strukturen av dataene dine og utlede innsikt for å bedre forstå det.

Dataklyptering kan også være en måte å modellere data på: Det representerer en større datagruppe av klynger eller klyngerrepresentanter.

I tillegg kan analysen din bare søke å partisjonere dataene i grupper med lignende elementer - som når

markedssegmentering partisjonerer målmarkedsdata i grupper som Forbrukerne som deler de samme interessene (slik som middelhavskoking)

Forbrukere som har vanlige behov (for eksempel de med spesifikke matallergier)
Identifisering av klynger av liknende kunder kan hjelpe deg med å utvikle en markedsføringsstrategi som tilfredsstiller behovene til bestemte klynger.

Videre kan dataklynging også hjelpe deg med å identifisere, lære eller forutsi naturen til nye dataposter - spesielt hvordan nye data kan knyttes til å lage spådommer. For eksempel i

mønstergjenkjenning kan analysemønstre i dataene (for eksempel kjøpsmønstre i bestemte regioner eller aldersgrupper) hjelpe deg med å utvikle prediktiv analyse - i dette tilfellet forutsi arten av fremtidige dataposter som kan passe bra med etablerte mønstre. Eksempel på fruktkurv bruker dataklynging for å skille mellom ulike dataposter. Anta at bedriften din samler tilpassede fruktkurver, og en ny, ukjent frukt blir introdusert til markedet. Du vil lære eller forutse hvilken klynge det nye elementet vil tilhøre hvis du legger det til fruktkurven.

Fordi du allerede har brukt dataklynging til fruktdatasettet, har du fire klynger - noe som gjør det lettere å forutse hvilken klynge (spesifikk type frukt) som passer for det nye elementet. Alt du trenger å gjøre er å sammenligne den ukjente frukten med de andre fire klyngernes representanter og identifisere hvilken klynge som passer best.

Selv om denne prosessen kan virke åpenbar for en person som arbeider med et lite datasett, er det ikke så tydelig i større skala - når du må klyse millioner av gjenstander uten å undersøke hver enkelt.Kompleksiteten blir eksponentiell når datasettet er stort, mangfoldig og relativt usammenhengende. Derfor finnes det klyngalgoritmer: Datamaskiner gjør den typen arbeid best.