Hjem Personlig finansiering Grunnleggende om dataklynger i Prediktiv analyse - dummier

Grunnleggende om dataklynger i Prediktiv analyse - dummier

Video: Det grunnleggende om intervaller i musikk 2024

Video: Det grunnleggende om intervaller i musikk 2024
Anonim

A datasett < (eller datainnsamling) er et sett med elementer i prediktiv analyse. Et sett med dokumenter er for eksempel et datasett der dataelementene er dokumenter. Et sett med brukernavn for sosiale nettverk (navn, alder, venneliste, bilder og så videre) er et datasett hvor dataelementene er profiler av brukere av sosiale nettverk. Dataklyptering

er oppgaven til å dele et datasett i delsett av lignende gjenstander. Elementer kan også refereres til som forekomster, observasjon, enheter eller dataobjekter. I de fleste tilfeller er et datasett representert i tabellformat - en datamatriks . En datamatrise er en tabell med tall, dokumenter eller uttrykk, representert i rader og kolonner som følger:

Hver rad tilsvarer et gitt element i datasettet.
  • Rader blir noen ganger referert til som

    elementer, objekter, forekomster eller observasjoner. Hver kolonne representerer en bestemt egenskap for et element.

  • Kolonner refereres til som

    funksjoner eller attributter. Bruk av dataklynging til et datasett genererer grupper av lignende dataposter. Disse gruppene heter

klynger - samlinger av lignende dataposter.

Lignende

elementer har et sterkt, målbart forhold blant dem - ferske grønnsaker, for eksempel, ligner på hverandre enn de er til frossen mat - og klyngeteknikker bruker det forholdet til gruppen Gjenstandene. Styrken av et forhold mellom to eller flere elementer kan kvantifiseres som et

likhetsmål: En matematisk funksjon beregner korrelasjonen mellom to dataelementer. Resultatene av denne beregningen, kalt likhetsverdier, , sammenligner i det vesentlige et bestemt dataelement til alle andre elementer i datasettet. De andre elementene vil være enten mer like eller mindre like i forhold til det bestemte elementet.

Beregnede likheter spiller en viktig rolle i å tildele elementer til grupper (

klynger ). Hver gruppe har et element som best representerer det; Dette elementet er referert til som en klyngerepresentant . Vurder et datasett som består av flere typer frukt i en kurv. Kurven har frukt av forskjellige typer som epler, bananer, sitroner og pærer. I dette tilfellet er frukt dataelementene. Dataklyngingsprosessen trekker ut grupper av lignende frukter ut av dette datasettet (kurv med forskjellige frukter).

Det første trinnet i en dataklyngingsprosess er å oversette dette datasettet til en datamatrise: En måte å modellere datasettet på er at radene representerer elementene i datasettet (frukt); og kolonnene representerer egenskaper eller funksjoner som beskriver elementene.

For eksempel kan en fruktfunksjon være frukttype (for eksempel banan eller eple), vekt, farge eller pris. I dette eksempeldatasettet har elementene tre funksjoner: frukttype, farge og vekt.

I de fleste tilfeller gjør det mulig å

Hente grupper (klynger) av lignende elementer ved å bruke en dataklyngeteknikk til fruktdatasettet som beskrevet ovenfor.

  • Du kan fortelle at frukten din er av N antall grupper. Etter at hvis du velger en tilfeldig frukt, vil du kunne gjøre en erklæring om det aktuelle elementet som en del av en av N-gruppene. Hent klusterrepresentanter for hver gruppe.

  • I dette eksemplet vil en klyngerepresentant plukke en frukttype fra kurven og sette den til side. Egenskapene til denne frukten er slik at den frukten best representerer klyngen den tilhører. Når du er ferdig med clustering, er datasettet ditt organisert og delt inn i naturlige grupperinger.

Dataklynging avslører strukturen i dataene ved å trekke ut naturlige grupperinger fra et datasett. Derfor oppdager klynger et viktig skritt mot å formulere ideer og hypoteser om strukturen av dataene dine og utlede innsikt for å bedre forstå det.

Dataklyptering kan også være en måte å modellere data på: Det representerer en større datagruppe av klynger eller klyngerrepresentanter.

I tillegg kan analysen din bare søke å partisjonere dataene i grupper med lignende elementer - som når

markedssegmentering partisjonerer målmarkedsdata i grupper som Forbrukerne som deler de samme interessene (slik som middelhavskoking)

  • Forbrukere som har vanlige behov (for eksempel de med spesifikke matallergier)

  • Identifisering av klynger av liknende kunder kan hjelpe deg med å utvikle en markedsføringsstrategi som tilfredsstiller behovene til bestemte klynger.

Videre kan dataklynging også hjelpe deg med å identifisere, lære eller forutsi naturen til nye dataposter - spesielt hvordan nye data kan knyttes til å lage spådommer. For eksempel i

mønstergjenkjenning kan analysemønstre i dataene (for eksempel kjøpsmønstre i bestemte regioner eller aldersgrupper) hjelpe deg med å utvikle prediktiv analyse - i dette tilfellet forutsi arten av fremtidige dataposter som kan passe bra med etablerte mønstre. Eksempel på fruktkurv bruker dataklynging for å skille mellom ulike dataposter. Anta at bedriften din samler tilpassede fruktkurver, og en ny, ukjent frukt blir introdusert til markedet. Du vil lære eller forutse hvilken klynge det nye elementet vil tilhøre hvis du legger det til fruktkurven.

Fordi du allerede har brukt dataklynging til fruktdatasettet, har du fire klynger - noe som gjør det lettere å forutse hvilken klynge (spesifikk type frukt) som passer for det nye elementet. Alt du trenger å gjøre er å sammenligne den ukjente frukten med de andre fire klyngernes representanter og identifisere hvilken klynge som passer best.

Selv om denne prosessen kan virke åpenbar for en person som arbeider med et lite datasett, er det ikke så tydelig i større skala - når du må klyse millioner av gjenstander uten å undersøke hver enkelt.Kompleksiteten blir eksponentiell når datasettet er stort, mangfoldig og relativt usammenhengende. Derfor finnes det klyngalgoritmer: Datamaskiner gjør den typen arbeid best.

Grunnleggende om dataklynger i Prediktiv analyse - dummier

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...